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内 容 简 介 

R 软件 是 一 种 统计 软件 ， 也 是 一 种 数学 计算 环境 . 它 提 供 了 有 
弹性 的 、 互 动 的 环境 来 分 析 、 可 视 及 展示 数据 ， 它 提供 了 若干 统计 
程序 包 ， 以 及 一 些 集成 的 统计 工具 和 各 种 数学 计算 、 统 计 计算 的 函 
数 ， 用 户 只 需 根据 统计 模型 ， 指 定 相应 的 数据 库 及 相关 的 参数 ， 便 
可 灵活 机 动 的 进行 数据 分 析 等 工作 , 甚至 创造 出 符合 需要 的 新 的 统 
计 计 算 方 法 . 使 用 R 软件 可 以 简化 你 的 数据 分 析 过 程 ， 从 数据 的 
存 取 , 到 计算 结果 的 分 享 ，R 软件 提供 了 更 加 方便 的 计算 工具 ， 帮 
助 你 更 好 地 分 析 和 人 解决 问题 ， 通 过 及 软件 的 许多 内 骸 统 计 函 数 ， 
用 户 可 以 很 容易 学 习 和 掌握 R 软件 的 语法 ， 也 可 以 编制 自己 的 函 
数 来 扩展 现 有 的 R 语言 ， 完 成 你 的 科研 工作 . 

本 书 既 深入 浅 出 、 通 俗 易 懂 ， 又 从 数理 统计 的 角度 对 R 软件 
进行 科学 、 准 确 和 全 面 的 介绍 ， 不 仅 介 绍 其 基本 用 法 ， 而 且 简 要 介 
绍 一 些 必须 的 专业 知识 背景 , 以 便 使 读者 能 深刻 理解 该 软件 的 精髓 
和 有 灵活、 高 级 的 使 用 技巧 ,此 外， 我 们 还 将 介绍 在 工程 技术 、 经 济 
管理 、 社 会 生活 等 各 方面 的 丰富 的 统计 问题 及 其 统计 建 模 方 法 ,， 通 
过 该 软件 其 问题 进行 求解 ,使 读者 获得 从 实际 问题 建 模 入 手 、 到 利 
用 软件 进行 求解 ， 以 及 对 计算 结果 进行 分 析 的 全 面 训 练 . 

本 教材 以 统计 理论 为 基础 ， 按 照 数 理 统 计 教 材 的 章节 顺序 ,在 
讲 明 统计 的 基本 概念 的 同时 ， 以 R 软件 为 辅助 计算 手段 ， 重 点 介 
绍 统计 计算 的 方法 ， 从 而 有 效 地 解决 统计 中 的 计算 问题 . 

本 书 可 作为 理工 、 经 济 、 管 理 、 生 物 等 专业 学 生 数 理 统计 课程 
的 辅导 教材 或 教学 参考 书 ， 也 作为 统计 计算 谍 程 的 教材 ， 和 数学 建 
模 竞 赛 的 辅导 教材 . 
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本 书 力求 将 实用 统计 方法 的 介绍 与 在 计算 机 上 如 何 R 软件 实现 这 些 方法 紧 
密 地 联系 起 来 ,不 仅 介 绍 各 种 上 数理 统计 方法 的 统计 思想 、 实 际 背 景 、 统 计 模型 
和 计算 方法 ， 并 且 结 合 R 软件 ， 给 出 相应 的 解决 问题 的 步骤 和 对 计算 结果 进行 
分 析 . 

关于 数理 统计 的 教材 或 教科 书 已 非常 多 , 这 类 教材 主要 是 以 数理 统计 的 理论 
为 基础 ， 讲 清 其 理论 、 方 法 与 应 用 背景 ， 但 对 于 计算 讲 的 较 少 ， 基 本 是 以 手工 
计算 为 主 ， 目 的 是 为 了 帮助 读者 理解 相应 的 统计 方法 ， 可 操作 性 不 强 . 

关于 统计 计算 的 书 也 有 不 少 ， 目 前 , 统计 计算 的 教材 一 般 是 讲 算法 (这 一 点 
与 数值 分 析 或 计算 方法 差不多 )， 而 没有 相应 的 软件 做 支撑 ， 有 些 内 容 是 数值 分 
析 内 容 的 重复 ， 统 计 味 不 足 . 

结合 软件 讲 统计 的 书 ， 目 前 最 多 的 是 结合 SAS 软件 、 SPSS 软件 .这 类 书 
籍 基本 上 相当 于 软件 使 用 说 明 书 ， 虽 然 谈 到 一 些 统计 概念 ， 但 讲 的 很 少 . 

本 书 既 不 是 单纯 的 一 本 关于 数理 统计 或 统计 计算 的 教科 书 , 也 不 只 是 一 本 关 
于 R 软件 的 使 用 手册 ， 而 是 一 本 将 两 者 相 结 合 的 教科 书 ， 本 书 的 特点 是 结合 有 
软件 来 讲 数理 统计 的 基本 概论 与 计算 方法 . 

R 软件 是 一 种 统计 软件 ， 也 是 一 种 数学 计算 环境 , 它 提供 了 有 弹性 的 、 互 动 
的 环境 来 分 析 、 可 视 及 展示 数据 ; 它 提 供 了 者 干 统计 程序 包 ， 以 及 一 些 集成 的 统 
计 工 具 和 各 种 数学 计算 、 统 计 计 算 的 函数 ， 用 户 只 需 根据 统计 模型 ， 指 定 相应 的 
数据 库 及 相关 的 参数 ， 便 可 灵活 机 动 的 进行 数据 分 析 等 工作 ， 甚 至 创造 出 符合 需 
要 的 新 的 统计 计算 方法 . 使 用 R 软件 可 以 简化 你 的 数据 分 析 过 程 ， 从 数据 的 存 
取 ， 到 计算 结果 的 分 享 ， R 软件 提供 了 更 加 方便 的 计算 工具 ， 帮 助 你 更 好 地 分 
析 和 解决 问题 . 通过 R 软件 的 许多 内 骨 统 计 函 数 ， 用 户 可 以 很 容易 学 习 和 掌握 
R 软件 的 语法 ， 也 可 以 编制 自己 的 函数 来 扩展 现 有 的 R 语言 ， 完 成 你 的 科研 工 
作 . 

本 教材 的 编写 风格 是 : (1) 以 目前 常见 的 数理 统计 教材 的 内 容 为 基准 ， 首 
先 对 数理 统计 的 基本 概念 、 基 本 方法 作 一 个 简单 、 清 晰 的 介绍 ,在 注重 基础 的 同 
时 ， 侧 重 统计 思想 和 统计 方法 的 介绍 . (2) 以 R 语言 为 主 ， 编 写 相 应 的 计算 程 
序 . 这 部 分 内 容 的 目的 有 两 个 ， 第 一 是 学 习 R 软件 的 编程 方法 ， 擎 握 R 软件 的 
基本 技巧 , 第 二 是 通过 编程 加 深 对 统计 方法 的 了 解 与 掌握 ， 同 时 ,还 可 以 通过 编 
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程 ， 加 深 对 R 软件 中 相关 函数 的 了 解 . (3) 介绍 相关 的 计算 函数 ,针对 许多 统 
计 方法 ， R 软件 提供 了 大 量 的 内 府 计 算 函 数 ， 使 用 者 只 需 输 入 数据 ， 就 可 得 到 
相应 的 结果 . 这 一 部 分 的 写作 重点 是 放 在 对 计算 结果 的 统计 和 解释， 如 何 通 过 结果 
来 分 析 已 有 的 数据 ， 着 重 掌握 相应 的 统计 方法 . 这 些 是 本 教材 最 主要 的 特色 ,也 
是 不 同 于 其 他 与 软件 有 关 的 教材 ， 本 书 着 重 强调 统计 建 模 ， 以 及 如 何 使 用 及 软 
件 得 到 其 计算 结果 和 相应 的 结果 解释 . 

本 书 的 主要 内 容 : 第 一 章 ， 概 率 统计 的 基本 知识 . 主要 目的 是 复习 统计 的 基 
本 知识 , 便于 对 后 面 各 章 内 容 的 理解 . 第 二 章 ，R 软件 的 使 用 . 主要 介绍 R 软件 
的 基本 使 用 方法 . 第 三 章 ， 数 据 描述 性 分 析 ， 从 数据 描述 开始 分 析 数 据 ， 主 要 介 
绍 数据 的 基本 特征 ， 如 均值 、 方 差 ， 还 有 与 数据 有 关 的 各 种 图 形 ， 如 直方 图 、 散 
点 图 等 ， 第 四 章 ， 参 数 佑 计 . 介绍 参数 佑 计 的 基本 方法 ， 如 点 估计 和 区 间 佑 计 . 
着 重 介绍 R 软件 中 与 估计 有 关 的 函数 . 第 五 章 , 假设 检验 . 介绍 假设 检验 的 基本 
方法 ,一 类 是 参数 检验 ， 男 一 类 是 非 参数 检验 ， 非 参数 检验 是 该 章 的 主要 内 容 ， 
重点 介绍 R 软件 中 与 非 参数 检验 的 各 类 函数 和 使 用 方法 . 第 六 章 ， 回归 分 析 . 介 
绍 回归 分 析 的 基本 方法 ， 着 重 介绍 回归 分 析 的 过 程 与 方法 和 如 何 使 用 R 软件 作 
回归 分 析 ， 除 一 般 的 回归 方法 外 ， 还 谈 到 逐步 回归 、 非 线性 回归 的 等 内 容 . 第 七 
章 ， 方 差分 析 . 介绍 单 因 素 方差 分 析 、 双 因素 方差 分 析 ， 以 及 正 交 试验 设计 与 方 
差分 析 之 间 的 关系 . 第 八 章 ， 应 用 多 元 分 析 ( 工 ). 介绍 判别 分 析 和 聚 类 分 析 ， 
这 些 内 容 与 判别 和 分 类 有 关 . 第 九 章 ， 应 用 多 元 分 析 (II ). 介绍 主 成 分 分 析 、 
主因 子 分 析 和 典型 相关 分 析 ， 它 是 应 用 多 元 分 析 中 降 维 计算 的 内 容 . 第 十 章 ， 计 
算 机 模拟 . 介绍 与 计算 机 模拟 的 Monte Carlo 方法 ， 以 及 系统 模拟 方法 ， 最 后 介 
绍 模拟 方法 在 排队 论 中 的 应 用 . 

在 学 习 本 书 的 内 容 之 后 ， 你 会 发 现 ， 尽 管 有 些 统计 内 容 其 计算 是 相当 复杂 
的 ， 但 在 使 用 R 软件 之 后 ， 这 些 问题 可 以 很 轻松 地 得 到 解决 . 

本 书 所 编写 的 R 函数 ， 以 及 所 介绍 的 R 函数 均 以 R-2.1.1 版 为 基础 (目前 
的 版 本 是 R-2.3.1, 而 且 大 约 每 3 至 4 个 月 版 本 会 更 新 一 次 ), 而 且 全 部 程序 均 运 
行 通过 ， 读 者 如 果 需 要 作者 自 编 的 R 程序 ， 可 以 发 电子 邮件 向 作者 索取 ， 邮 件 
地 址 : ”xueyi@bjut.edu.cn. 


本 书 是 为 理工 、 经 济 、 管 理 、 生 物 等 专业 学 生 或 专业 人 员 为 解决 统计 计算 问 
题 而 编写 ， 可 以 作为 上 述 专 业 学 生 数理 统计 课程 的 辅导 教材 或 教学 参考 书 ， 也 作 
为 统计 计算 课程 的 教材 ， 和 数学 建 模 竞 赛 的 辅导 教材 . 
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第 一 章 ”概率 统计 的 基本 知识 


本 书 是 一 本 统计 建 模 与 软件 应 用 相 结 合 的 教科 书 , 其 讲述 重点 放 在 数理 统计 
的 基本 方法 和 用 R 软件 进行 相应 的 计算 . 众所周知， 数理 统计 是 以 概率 论 为 基 
础 、 应 用 非常 广泛 的 数学 学 科 分 支 ， 是 通过 对 试验 或 观察 数据 进行 分 析 ， 来 研究 
随机 现象 以 达到 对 研究 对 象 的 客观 规律 性 做 出 合理 的 佑 计 和 推断 的 目的 , 因此 在 
介绍 统计 建 模 和 R 软件 知识 之 前 ， 有 必要 先 回 顾 一 下 相关 的 概率 与 数理 统计 的 
基本 概念 ， 以 及 数理 统计 的 各 个 应 用 分 支 . 

本 章 用 四 节 的 内 容 简单 回顾 概率 论 的 基础 知识 , 用 一 节 的 内 容 简单 介绍 数理 
统计 的 基本 概念 . 这 样 做 的 目的 是 使 读者 对 已 有 概率 论 的 知识 有 一 个 全 面 的 了 解 
与 回顾 ， 对 数理 统计 的 概念 有 一 个 基本 的 认识 . 








1.1 随机 事件 与 概率 


1.1.1 随机 事件 


1. 随机 事件 

在 一 定 条 件 下 ， 所 得 的 结果 不 能 预 完 完全 确定 ， 而 只 能 确定 是 多 种 可 能 结果 
中 的 一 种 ， 称 这 种 现象 为 随机 现象 . 例如 ， 抛 搓 一 枚 硬币 ， 其 结果 有 可 能 是 出 现 
正面 ， 也 有 可 能 是 出 现 反面 ; 电话 交换 台 在 1 分 钟 内 接 到 的 呼叫 次 数 ， 可 能 是 0 
次 、1 次 、2 次 、…; 在 同一 工艺 条 件 下 生产 出 的 灯泡 ， 其 使 用 寿命 有 长 有 短 ; 
测量 同一 物体 的 长 度 时 ， 由 于 仪器 及 观察 受到 环境 的 影响 ， 多 次 测量 的 结果 往往 
有 差异 ， 等 等 ， 这 些 现 象 都 是 随机 现象 . 

使 随机 现象 得 以 实现 和 对 它 观 察 的 全 过 程 称 为 随机 试验 (random experi- 
ment), 记 为 B. 随机 实验 满足 以 下 条 件 :_ 

(1) 可 以 在 相同 条 件 下 重复 进行 ; 

(2) 结果 有 多 种 可 能 性 ， 并 且 所 有 可 能 结果 事先 已 知 ; 
(3) 作 一 次 试验 究竟 哪个 结果 出 现 ， 事 先 不 能 确定 . 

随机 试验 的 所 有 可 能 结果 组 成 的 集 本 空间 (sample space), 记 为 Q. 

的 每 能 结果 称 为 样本 点 (sample point), 记 为 w. 


1 
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称 2 中 满足 一 定 条 件 的 子 集 为 随机 事件 (random event), 用 大 写字 母 4, B， 
人 


一 个 随机 事件 只 合 一 个 不 可 再 分 的 试验 结果 称 为 一 个 基本 事件 ( 即 一 个 样本 
点 所 作成 的 集合 {2}) 


在 试验 中 , 称 一 个 事件 发 生 是 指 构成 该 事件 的 一 个 样本 点 出 现 . 由 于 样本 空 
间 Q 包含 了 所 有 的 样本 点 ， 所 以 在 每 次 试验 中 ， 它 总 是 发 生 ， 因 此 称 Q 为 必然 
以 称 1 为 不 可 能 事件 (impossible event). 

2. 随机 事件 之 间 的 关系 

若 事件 4 的 发 生 必然 导致 事件 B 的 发 生 ， 则 称 事 件 4 包含 于 事件 B, 或 事 
件 B 包含 事件 4, 记 为 4 C B, 亦 称 为 事件 的 包含 (contain) 关系 ._ 

若 4C 卫 , 且 已 C 4. 则 称 事件 4 与 事件 也 等 价 (equivalent), 记 为 4 = 万. 

若 事件 4 与 事件 B 至 少 有 一 个 发 生 ， 则 称 为 事件 的 和 (union)， 记 为 AUB. 
若 nn 个 事件 41，42,.…，4 中 至 少 有 一 个 发 生 ， 则 称 为 n 个 事件 的 和 ， 记 为 
4U4U.U4， 或 U4 


同样 ， 可 以 定义 可 列 无 穷 个 事件 的 和 41U 42U.…U AU.… 或 U 4i, 表示 
无 穷 个 事件 中 至 少 有 一 个 发 生 . 
若 事件 4 发 生 而 事件 B 不 发 生 , 则 称 为 事件 4 与 事件 妃 的 差 , 记 为 4-B， 
若 事 件 4 与 B 同时 发 生 ， 则 称 事件 4 与 事件 B 的 积 (intersection), 记 为 
ANB 或 4B. 着 个 事件 41, 4s,.…, A 同时 发 生 ， 则 称 为 n 个 事件 的 积 ， 记 
为 Ain Asn…n 4 或 门 4 
i 二 二 
同样 ， 可 以 定义 可 列 无 穷 个 事件 的 积 41n 4sn.…n 4.… 或 门 4 表示 
1 一 
无 穷 个 事件 同时 发 生 . 8 


者 事件 4 与 B 不 能 同时 发 生 ， 则 称 事件 4 与 事件 B 为 互 太 事件 mutually 


exclusive event ) 或 不 相 容 事件 (incompatiable event), 记 为 4B = 

在 一 次 试验 中 ， 基 本 事件 之 间 是 两 两 互 斥 的 . 

若 4 为 随机 事件 , 称 “ 事 件 4 不 发 生 * 的 事件 为 事件 4 的 对 立 事件 (opposite 
event) 或 道 事件 (complementary event)， 记 为 A. 事件 与 对 其 立 事 件 有 如 下 关 
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AUA=Q0, AA=1. 





由 定义 可 知 : 对 立 事件 一 定 是 互 斥 事件 ， 但 互 斥 事件 不 一 定 是 对 芯 事 件 . 


3. 随机 事件 的 运算 律 
(1) 交换 律 
AUB=BUA, MPB= BA 


(2) 结合 律 


(4AUB)UC=AU(BUO), (ANB)NC=AN(BNO). 
(3) 分 配 律 


(AUB)C=(AC)U(BC), AU(BC)= (AUB)(AUC). 


(4) 德 . 摩根 律 


AUAs=AiNA,s, AiNMA,= AiU hs. 














对 于 了 个 或 可 列 无 穷 个 事件 有 
吕 入 = 人生 有 入 = 局 全 局 条 = 和 和 自生 = 局 到 
k=1 k=1 k=1 k=1 k=1 k=1 k=1 k=1 
(5) 减法 满足 


A-B=AB 或 A4-B=ANB. 


1.1.2 ”概率 
1. 概率 的 公理 化 定义 


(1.1) 


(1.2) 


(1.4) 


(1.5) 


(1.6) 


在 概率 论 中 并 非 样 本 空间 2 的 任何 子 集 均 可 以 看 作 事 件 ， 所 定义 的 事件 之 


间 应 满足 一 定 的 代数 结构 . 
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定义 1.1 设 随机 试验 瑟 的 样本 空间 为 2, 三 是 2 的 子 集 组 成 的 集 族 ， 满 足 


(1) 人 

(2) 著 Ae, 则 AE; (对 逆 运 算 封闭 ) 

(9) 车 hieE ,i 二 1,2,… 则 UU hiE 丰 (对 可 列 并 运算 封闭 ) 
1 


则 称 三 为 8 的 一 个 o- 代数 (事件 体 )， 厅 中 的 集合 称 为 事件 .样本 空间 Q 和 
0 代数 的 二 元 体 (0, 太 ) 称 为 可 测 空 间 . 
定义 1.2 随机 试验 马 的 样本 室 间 为 Q, (9, 大) 是 可 测 空间 , 对 于 每 个 事件 A€ 天， 
定义 一 个 实数 P(A) 与 之 对 应 ， 若 函数 P(:) 满足 条 件 : 

(1) 对 每 个 事件 4, 均 有 0<P(A4)<1l; 

(2) PIO0)=1; 

(3) 闭 事 件 A1， A2, .… 两 两 互 斥 ， 即 对 于 i,j 二 1,2,…, i1 关 j， Aihj 十 均 
有 

P(A1U AsU:..)= P(A1) + P(A2) 二， 

则 称 P(A) 为 事件 4 的 概率 (probability), 称 (Q, 下,P) 为 概率 空间 . 


2. 概率 的 性 质 
性 质 1: P(0) = 0, 即 不 可 能 事件 的 概率 为 零 
但 性 质 反 过 来 不 成 立 , 即 P(A) =0 办 A=0 
性 质 2: 若 事件 41, 42,…， A 两 两 互 斥 ， 则 有 





P(A1U AsU:..UA,)= P(Ai)+ P(Ah;)+-.…++ P(A,), (1.7) 


即 互 斥 事 件 和 的 概率 等 于 它们 各 自 概 率 的 和 . 
性 质 3: 对 任 一 事件 4, 均 有 P(L4) =1- P(4). 
性 质 4: 对 两 个 事件 4 和 B, 奉 4CB, 则 有 


P(B—- A)=P(B)- P(A), P(B)> P(A). (1.8) 


性 质 5: (加 法 公式 ) 对 任意 两 个 事件 4 和 5B, 有 


P(AUB)= P(A)+ P(B) — P(AB). (1.9) 
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性 质 5 可 以 推广 为 : 

—P(A,A;3) + P(AiA,A;), (1.10) 
P(AIUAsU::.UA,)=5— 6+53 ++ (1)" 5,, (1.11) 
nt 

其 中 51 == >) P(A4i;), so = > P(A4iAj;), S83 = 2 P(AiA;Ax), 
i=1 1<i<ij<n 1<i<ij<k<n 

Sn = P(Ai1A;:…. A,). 

1.1.3 ”古典 概 型 


设 随机 事件 忆 的 样本 空间 中 只 有 有 限 个 样本 点 , 即 0 = {0w1,w2,…,wn}, 其 
中 7 为 样本 点 总 数 ， 每 个 样本 点 wi(i = 1,2,.…,n) 出 现 是 等 可 能 的 ， 并 且 每 次 
试验 有 且 仅 有 一 个 样本 点 发 生 ， 则 称 这 类 现象 为 古典 概 型 (classical probability 
model). 知事 件 4 包含 m 个 样本 点 ， 则 事件 4 的 概率 定义 为 


全 事件 4 包 合 的 基本 事件 数 (1.12) 


n 基本 事件 总 数 





例 1.1 设 有 上 开 个 不 同 的 (可 分 辨 ) 球 ， 每 个 球 都 能 以 同样 的 概率 1/1 落 到 1 个 
格子 (1 > 站 的 每 一 个 中 ， 且 每 个 格子 可 容纳 任意 多 个 球 ， 试 分 别 求 如 下 两 事件 
A 与 B 的 概率 . 

A: 指定 的 天 个 格子 中 各 有 一 个 球 ; 

B: 存在 无 个 格子 ， 其 中 各 有 一 个 球 . 

解 : 由 于 每 个 球 可 以 落 入 ! 个 格子 中 的 任 一 个 ， 并 且 每 一 个 格子 中 可 落 入 任 
意 多 个 球 ,所 以 天 个 球 落 入 ! 个 格子 中 的 分 布 情况 相当 于 从 /个 格子 中 选取 上 个 
的 可 重复 排列 ， 故 样本 空间 共有 * 种 等 可 能 的 基本 结果 . 

事件 4 所 含 基本 结果 数 应 是 & 个 球 在 指定 的 天 个 格子 中 的 全 排列 数 ， 即 1， 


所 以 
| 


P(4) = 元 


为 了 算出 事件 B 所 含 的 基本 事件 数 ， 可 设想 分 两 步 进行 ， 因为 大 个 格子 可 
以 是 任意 选取 的 ， 故 可 先 从 ! 个 格子 中 任意 选 出 有 个 来 ， 选 法 共有 CF 种 ， 对 于 
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每 种 选 定 的 大 个 格子 ， 依 上 述 各 有 一 个 球 的 推理 ， 则 有 jl 个 基本 结果 , 故 BB 合 
有 Crk! 个 基本 结果 . 所 以 
kl 
PB) = CF = tA 

概率 论 的 历史 上 有 一 个 颇 为 著名 的 问题 一 生日 问题 : 求 上 个 同班 同学 没有 
两 人 生日 相同 的 概率 . 

若 把 这 个 同学 看 作 例 1.1 中 的 个 球 ， 而 把 一 年 365 天 看 作 格 子 ， 即 
1 = 365, 则 上 述 的 P(B) 就 是 所 要 求 的 概率 .例如 ,有 = 40 时 , P(B) = 0.109. 或 者 
换 句 话说 ，40 个 同学 中 至 少 两 个 人 同一 天 过 生日 的 概率 是 ，P(B) = 1 一 0.109 = 
0.891, 其 概率 大 的 出 乎 意料 . 
1.1.4 几何 概 型 

当 随 机 试验 的 样本 空间 是 某 一 可 度量 的 区 域 ， 并 且 任 意 一 点 落 在 度量 (长 
度 、 面 积 与 体积 ) 相同 的 子 区 域内 是 等 可 能 的 ， 则 事件 4 的 概率 定义 为 

六 ”54 “构成 事件 4 的 子 区 域 的 度量 
= 
2 样本 空间 的 度量 

这 种 概率 模型 称 为 几何 概 型 (geometric probability model). 
例 1.2 (Buffon( 薄 丰 ) 投 针 问题 ). 设 平面 上 和 画 有 等 距 为 a 的 一 化 平行 线 . 取 一 枚 
长 为 1(1 < a) 的 针 随意 扔 到 平面 上 ， 求 针 与 平行 线 相交 的 概率 . 

解 : 设 x 表示 针 的 中 心 到 最 近 一 条 平行 线 的 距离 ， 0 表示 针 与 此 直线 间 的 
交角 (图 1.1(a)), 则 (0, x) 完全 决定 针 所 落 的 位 置 ， 针 的 所 有 可 能 的 位 置 为 


Q = {(0,7) : 0<g<mo<sz<5| 














(11 











它 可 用 0 一 zx 平面 上 的 一 个 矩形 来 表示 (图 1.1(b)). 针 与 平行 线 相交 的 充分 必要 
条 件 是 x < zsinb, 即 图 1.1(b) 中 阴影 部 分 ， 它 的 面积 》 


s% | dn 
0 2 


因此 ， 帮 把 往 乎 面 上 随意 扔 一 枚 针 理 解 为 2 内 的 任 一 点 为 等 可 能 ， 且 记 针 与 任 
一 平行 线 相交 的 事件 为 4, 则 
Sa 21 


P(4)= 学 = 二 (1.14) 


1.1 随机 事件 与 概率 了 





图 1.1: Buffon 投 针 的 几何 概率 


由 式 (1.14) 可 以 利用 投 针 试 验 计算 + 值 . 设 随 机 投 针 n 次 ， 其 中 天 次 针线 
相交 ， 当 n 充分 大 时 ， 可 用 频率 4 作为 概率 p 的 估计 值 ， 从 而 求 得 r 的 估计 值 


为 
2n, 


i 
根据 公式 (1.15), 历史 上 曾 有 一 些 学 者 作 了 随机 投 针 试验 ， 并 得 到 7 的 估计 值 . 


1.1.5 条件 概率 


你 一 


(1.15) 


研究 随机 事件 之 间 的 关系 时 , 在 已 知 某 些 事件 发 生 的 条 件 下 考虑 另 一 些 事件 
发 生 的 概率 规律 有 无 变化 及 如 何 变化 ， 是 十 分 重要 的 . 
设 A 和 B 是 两 个 事件 ， 且 PUB) > 0, 称 


P(AB) 
PB) 
为 在 事件 B 发 生 的 条 件 下 ， 事 件 4 发 生 的 条 件 概率 (conditional probability). 
例如 ， 某 集体 中 有 N 个 男人 和 M 个 女人 ， 其 中 患 色 讶 者 男性 mn 人 ， 女 性 
m 人 . 用 9 表示 该 集体 ， 4 表示 其 中 全 体 女 性 的 集合 ， B 表示 其 中 全 体 色 育 
者 的 集合 . 如 果 从 9 中 随意 抽取 一 人 ， 则 这 个 人 分 别 是 女性 、 色 盲 者 和 同时 既 


P(AIB) = (1.16) 





为 女性 又 是 色 育 者 的 概率 分 别 为 
P= 三 = 训 和 P= 





如 果 限 定 只 从 女性 中 随机 抽取 一 人 ( 即 事 件 4 已 发 生 ), 那么 这 个 女人 为 色 
言 者 的 (条 件 ) 概率 





P(BIA)S = 
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条 件 概 率 也 是 概率 ， 它 满足 概率 公理 化 定义 中 的 三 条 ， 即 

(1) 对 每 个 事件 4, 均 有 0 < P(4|B) < 1 

2) PP) 三 了 

(3) 若 事件 41, 42?，，… 两 两 互 斥 ， 即 对 于 27 =1 2 天 思 44 = 有 有 


PIA UA UB)= PAB)T P(As|B)T+ 


并 且 对 于 在 前 面 给 出 的 概率 性 质 和 公式 ， 也 都 适用 于 条 件 概 率 . 例如 ， 对 任意 的 
事件 机 ;Az; 有 


P((A1U A2)|B)= P(A1NB) + P(A2|B) — P(A1A2NB). 


1.1.6 ”概率 的 乘法 公式 、 全 概率 公式 、 Bayes 公式 
由 条 件 概率 公式 ， 得 


P(AB) = P(A|B)P(B) = P(BIA)P(A). (1.17) 


称 式 (1.17) 为 概率 
习 法 公式 的 推广 ， 对 于 任何 正 整数 n> 2, 当 P(A14s.… 4。1) > 0 时 , 有 


PP(414 4 1An) = P(Ai)P(A2s|A1)P(As|A1A2):…:. P(A,lA1A2:… A 1). 


定义 1.3 如 果 事件 组 B1, Bo,… 满足 


(1) Bi, B2… 两 两 互 斥 ， 即 Bif\|B;=0,1#7,1,7 = ,270 
1 


i 
则 称 事件 组 有 Bi, Bz,.… 是 样本 空间 Q 的 一 个 划分 
设 Bi1, Bo,…… 是 样本 空间 0 的 一 个 划分 ， 4 为 任 一 事件 ， 则 


= DP P(AIB,). 


称 式 (1.19) 为 全 概率 公式 (formula of total probability). 
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设 Bi, Bs,.… 是 样本 空间 9 的 一 个 划分 ， 则 对 任 一 事件 4 (P(4) > 0), 有 
P(BA) __P(B)P(AIB) 
PA) S$ p(B)P(AIB) 






PllAY = eR (1.20) 









称 式 (1.20) 为 Bayes (由 叶 斯 公式 oye ee 称 式 中 的 P( 
为 先 验 概率 ， 









) 





Bi;)(i = 1,2,.- 


例 1.3 假定 用 血清 甲 胎 有 蛋白 法 诊断 肝癌 . 用 C 表示 被 检验 者 有 肝癌 这 一 事件 ， 
用 4 表示 被 检验 者 为 阳性 反应 这 一 事件 . 设 P(4|C) = 0.95, P(A4|C) = 0.90. 
车 某 人 群 中 P(C) = 0.0004, 现 有 一 人 呈 阳 性 反应 ， 求 此 人 确 为 肝癌 患者 的 概率 
P(C|A). 

解 : 由 Bayes 公式 ， 有 


PIO)P(AIO) 
PIOIP(AIG) + PICIP(AC) 
0.0004 x 0.95 


二 一 一 ~ 一 0.0038. 
0.0004 x 0.95 + 0.9996 x 0.10 


MA 


1.1.7 ”独立 事件 
如 果 两 事件 4, B 的 积 事件 发 生 的 概率 等 于 这 两 个 事件 的 概率 的 乘积 ， 且 


P(AB) = P(A)P(B), 


则 称 事 件 4 与 事件 B 是 相互 独立 的 (mutually independent). 
性 质 若 事件 4 与 事件 B 相互 独立 , 则 4 与 ,与 B, 有 与 万 也 相互 独 


Y. 





有 瞪 广 : 设 41, 42,…, 4 为 n 个 事件 ，n > 2. 如 果 对 于 其 中 的 任意 大 (5 > 2) 
个 事件 Aii, Ais,**, Ai,, 1 < < Se < i < nn, 等 式 
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均 成 立 ， 则 称 n 个 事件 4i, 42,…, 4 相互 独 芯 . 

多 个 相互 独立 事件 有 如 下 性 质 : 

(1) 若 事 件 Ai, 42， “人 A 相互 独立 ， 则 Ai, 42， J A 中 任意 天 (k > 2) 个 
事件 Ai, 4 4 1 < 1 < 12 入 “去 Lk < 7 也 相互 独立 ; 

(2) 知事 件 41， 42， 站 A 相互 独立 ， 则 事件 Bi, B,, obi B, 也 相互 独立 . 其 
中 B; 或 为 Ai; 或 为 A;, 1 一 工 2 … 了. 

肚 功 若 和 4, 42,…, 4 相互 独立 则 有 4i, 42,…, A 两 两 相互 独立 , 反 过 来 
若 Ai, 42， 2 An 两 两 相互 独立 则 不 一 定 有 Ai, 42>， Ee An 相互 独立 . 事实 上 ， 








7 个 事件 相互 独立 ， 则 要 有 C2 十 3 十 … 十 C7 二 27 一 n 一 1 个 等 式 成 立 ,而 两 


两 独立 只 需 有 C2 = “了 个 等 式 成 立 . 

例 1.4 设 有 《 张 卡 片 ， 其 中 3 张 上 分 别 记 有 字母 A 和 B,B 和 C 4 和 C 第 1 
张 是 空白 .从 中 随机 抽取 一 张 ， 就 用 A, (B 和 C) 分 别 记 事件 “ 艳 到 的 卡片 上 有 
字母 4, (B 和 0)”, 则 显然 有 


P(A) = P(B) = P(C) = 


P(4B) = P(AC) = P(BC) = 于 
P(ABC) = 0 # P(A)P(B)P(C). 


因此 ， A, B,C 三 个 事件 中 任意 两 个 相互 独立 ， 但 这 三 个 事件 并 不 相互 独立 . 


1.1.8 九重 Bernoulli 试验 及 其 概率 计算 
如 果 一 个 随机 试验 只 有 两 种 可 能 的 结果 4 和 4, 并 且 


P(A)=p, P(A)=1-p 


其 中 0 <p <1, 则 称 此 试验 为 Bernoulli ( 伯 努 利 ) 试验 (Bernoulli trial). Bernoulli 
试验 独立 重复 进行 n 次 ， 称 为 n 重 Bernoulli 试验 . 

例如 ， 从 一 批 产品 中 检验 次 品 ， 在 其 中 进行 有 放 回 抽样 n 次 , 抽 到 次 品 称 为 
“成 功 ”, 抽 到 正品 称 为 “失败 ”, 这 就 是 n 重 Bernoulli 试验 . 


4 





Aj = {n 恒 Bernoulli 试验 中 4 出 现 上 次 }, 
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则 
P(Ay) = Cp*(1 — p)™*, k=0,1,2,...,n. (1.21) 


这 就 是 著名 的 二 项 分 布 ， 常 记 作 B(n,). 





1.2 ”随机 变量 及 其 分 布 


1.2.1 ”随机 变量 的 定义 


定义 1.4 设 马 是 随机 试验 ，Q 是 样本 空间 ， 如 果 对 于 每 一 个 w EQ, 都 有 一 个 
确定 的 实数 X(w) 与 之 对 应 ， 若 对 于 reR, 有 {w: X(w)<r}eR, 


则 称 0 上 的 单 值 实 动 数 X(w) 为 

从 定义 可 知 随机 变量 是 定义 在 样本 空间 2 上 ， 取 值 在 实数 域 上 的 函数 .由 
于 它 的 自 变 量 是 随机 试验 的 结果 ， 而 随机 试验 结果 的 出 现 具有 随机 性 ， 因 此 ， 随 
机 变量 的 取 值 也 具有 一 定 的 随机 性 . 这 是 随机 变量 与 普通 函数 的 不 同 之 处 . 

















1.2.2 ”随机 变量 的 分 布 函数 


描述 一 个 随机 变量 ,不仅 要 说 明 它 能 够 取 那 些 值 ， 而 且 还 要 关心 它 取 这 些 值 
的 概率 . 因此， 引入 随机 变量 的 分 布 函数 的 概念 . 
定义 1.5 设 XX 是 一 个 随机 变量 ， 对 任意 的 实数 x, 令 


F(x)= P{X < 27}, 27E( 一 co 十 oo)， 


尔 FP(Z) 为 随机 变量 对 





从 直观 上 看 , 分 布 函数 P(x) 是 一 个 定义 在 (00, +co) 上 的 实 值 函 数 ，f(7) 
在 点 x 处 取 值 为 随机 变量 X 落 在 区 间 (-co, z] 上 的 概率 . 

分 布 函数 具有 以 下 性 质 

(1) 0 < F(x) < 1; 
(2) F(z) 是 单调 不 减 函数 ， 即 当 zl < za 时 ， F(z1) < F(z2); 
(3) 
证 
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(5) P{a <X < 6} = F0)— F(a); 

(6) P{X >a}=1— P{X <a}=1— F(a). 

在 理论 上 已 经 证 明 ， 如果 一 个 函数 满足 上 术 的 前 四 条 性 质 ， 则 它 一 定 是 基 个 
随机 变量 的 分 布 函数 . 
1.2.3 ”离散 型 随机 变量 


1. 离散 型 随机 变量 
定义 1.6 如 果 随 机 变量 X 的 全 部 可 能 取 值 只 有 有 限 多 个 或 可 列 无 穷 多 个 ， 则 称 
X 为 离散 型 随机 变量 . 
定义 1.7 对 于 离散 型 随机 变量 XX 可 能 取 值 为 Zh 的 概率 为 


P{X = rx} = pr, Ek 2), 


则 称 式 (1.23) 为 离散 型 随机 变量 XX 的 分 布 律 . 
离散 型 随机 变量 的 分 布 律 具 ps 有 以 下 性 质 : 











可 用 表 1.1 来 表示 其 分 布 律 . 
表 1.1: 分 布 律 
X Z1 2 … Tk 
Dk D1 D2 区 2 Dk 





离散 型 随机 变量 的 分 布 函 数 为 
FPX w= Y PX}= (1.24) 


Tk<T Vhs 


2. 常见 的 离散 型 分 布 
(1) 两 点 分 布 (0 一 1 分 布 ) 
若 随 机 变量 X 的 分 布 律 为 : 


P{X=k}=p"(1—p)"™, k=0,1, (0<p<1), (1.25) 


1.2 随机 变量 及 其 分 布 13 


则 称 X 服从 参数 为 p 的 两 点 分 布 ， 记 作 X ~ B(1,p). 其 分 布 函数 为 


0, Z < 0， 
F(z)= 1-p, 0<z<1, (1.26) 
1, vd 
(2) Bernoulli 试验 ， 二 项 分 布 
若 随 机 变量 X 的 分 布 律 为 
P{X=k}=Op (1 一 站 k=0,1,...,n, (1.27) 


则 称 X 服从 参数 为 n,p 的 二 项 分 布 (binomial distribution), 记 为 X ~ B(n,p)， 
其 中 C*p*(1 一 p)”* 是 n 重 Bernoulli 试验 中 事件 4 恰好 发 生 大 次 的 概率 .其 


分 布 函 数 为 





Plo YY OU (1.28) 
k=0 
其 中 示 下 取 整 ， 即 不 超过 z 的 最 大 整数 ， 下 同 . 
3) Poisson 分 布 
大 随机 变量 X 的 分 布 律 为 
P(X = 由 =2 | ee (1.29) 


则 称 X 服从 参数 为 入 的 Poisson ( 泊 松 ) 分 布 (Poisson distribution), 记 作 和 ~ 


P(A 和) 或 X~7( 和 ), 其 中 入 > 0 为 常数 ， 其 分 布 函数 为 





[lz] Me 
pl (1.30) 
k=0 
定理 1.1 (Poisson 定理 ) 
让 Bernoulli 试验 中 试验 中 出 现 的 概率 ， 它 与 试验 总 





数 有 关 ， 如 采 


(1.31) 


(1.32) 


中 OBmD 
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1.2.4 ”连续 型 随机 变量 


连续 型 随机 变量 
定义 1.8 对 于 随机 变量 入 , 如 果 存 在 一 个 定义 在 (一 00, 十 00) 上 的 非 负 议 数 (7)， 
使 得 对 于 任意 实数 2 ， 总 有 


nla = BP{XE j= a fdt, -co<z<+oo， (1.33) 


则 称 X 为 连续 型 随机 变量 ， jzZ) 为 六 的 概率 密度 函数 (probability density 
function), 简称 概率 密度 ， 
ee 
人 三 
2 对 于 任意 的 实数 a,b(a < 中 ,都 有 P{a<X<0}= [f(z 
(3) 若 f(z) 在 点 x 处 连续 ， 则 f(x) = (7); 
(4) 对 任意 实数 a, 总 有 P{X = oj = 0. 


2. 常见 的 连续 型 分 布 


(1) 均匀 分 布 
奇 随机 变量 X 的 概率 密度 函数 为 





(1.34) 





则 称 X 服从 区 间 [co 上 的 均匀 分 布 (uniform distribution), 记 为 X ~ Ula,90|. 
其 分 布 函数 为 


(1.35) 





(2) 指数 分 布 
者 随机 变量 X 的 概率 密度 函数 为 


ee (1.36) 
XTX) 二 了 
0， 2Z < 0， 
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其 中 入 > 0 为 常数 , 则 称 X 服从 参数 为 和 的 指数 分 布 (exponential distribution). 





其 分 布 函数 为 
(1.37) 
(3) 正 态 分 布 
若 随机 变量 X 的 概率 密度 函数 为 
(1.38) 





其 中 1,o(o > 0) 是 两 个 常数 ， 则 称 X 服从 参数 为 J,o 的 正 态 分 布 (normal 
distribution), 也 称 为 Gauss 分 布 ， 记 作 和 ~ N(1,0o7). 
图 1.2 描绘 的 是 参数 为 = 0c=1w=0c=05 和 /=2,c=05 的 正 











HL=0,0=0.5 


























图 1.2: 正 态 分 布 的 概率 密度 函数 


如 果 改 变 / 值 ， 只 会 改变 正 态 分 布 图 形 的 位 置 ， 而 不 会 改变 它 的 形状 ， 如 
果 改 变 o 值 ， 则 会 改变 正 态 分 布 的 形状 . 例如 ， 在 图 1.2 中 ， 可 以 看 到 ， 改 变 1/ 
值 ,实际 上 在 改变 正 态 分 布 的 中 心 位 置 ，4 值 变 小 , 图 形 向 左 移动 ，k 值 变 大 ， 
图 形 向 右 移动 ， 而 改变 o, 则 改变 图 形 的 形状 ， o 的 值 越 小 ， 其 图 形 越 陡 ， 而 o 
越 大 ， 则 图 形 越 平坦 . 当 我 们 讲 过 数学 期 望 与 方差 的 意义 、 正 态 随 机 变量 的 数学 
期 望 与 方差 后 ， 更 容易 理解 这 一 点 . 
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当 风 = 0c= 工 时 ， 和 ~ N(0,1), 则 称 XX 服从 标准 正 态 分 布 其 概率 密度 


(1.39) 


(1.40) 





有 B(x)=1— B(z). 
图 1.3 给 出 标准 正 态 分 布 的 概率 密度 曲线 ， 以 及 对 应 区 间 上 积分 (相应 的 
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图 1.3: 标准 正 态 分 布 和 对 应 区 间 上 积分 (面积 ) 的 百分比 


面积 ) 的 百分比 . 图 1.3 表明 ， 当 X ~ N(0,1) + 
Gn 


ee 


若 和 ~ No) 则 








攻 dt=® (Se ， 一 co <2 < 十 co. (1.41) 
元 7 0 


图 1.4 给 出 了 正 态 分 布 的 概率 密度 函数 与 分 布 函数 之 间 的 关系 ， 其 中 曲线 为 概 
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图 1.4: 概率 密度 函数 与 分 布 函 数 之 间 的 关系 
率 密度 函数 f(x), 而 阴影 部 分 则 是 分 布 函数 F(z). 由 此 容易 得 到 
P{zr < X < wa} = F(r2) — Floi) = (4) 一 下 (2 (42) 


(图 1.4 中 的 概率 和 密度 函数 是 标准 正 态 分 布 的 概率 密度 函数 ). 
设 随机 变量 X ~ N(0,1), 对 任 给 的 0 < a < 1, 称 满足 条 件 


P{X > Za} = 上 0(Z)dz =a 





的 点 Zo 为 标准 正 态 分 布 的 上 a 分 位 点 . 
图 1.5 给 出 了 标准 正 态 分 布 的 上 a 分 位 点 Gu 的 几何 意义 ， 其 中 阴影 部 分 
面积 的 值 为 a. 


3. 随机 变量 的 函数 的 分 布 
若 随机 变量 X 具有 概率 密度 函数 /xz), -co < XY < +co, 又 设 g(x) 处 处 可 
导 且 g(x) 不 变 号 ， 则 站 = 9(X) 是 连续 型 随机 变量 ， 其 概率 密度 函数 为 : 
fx (h(Y)) RV, aa<y< AP， 
fy(y) = 
0， 其 有 
其 中 Q: 二 min{g(—00), 9(00)}, b max{g(—00), 9(00)}, 工 一 h(y) 为 Y= g(x) 的 
反 函 数 ， 
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图 1.5: 标准 正 态 分 布 的 上 a 分 位 点 


知 g(x) 是 非 单调 函数 ， 设 随机 变量 X 的 分 布 函数 为 Fx (x), 概率 密度 为 
fx(x), Y= g(X) 的 分 布 函数 为 fy(y), 概率 密度 为 fy(y), 则 


mw)= | ar 


由 此 再 进一步 求 出 fy(y), 不 过 需要 具体 问题 具体 分 析 . 
1.2.5 ”随机 向 量 


1. 随机 向 量 的 定义 
定义 1.9 如 果 刁 和 了 是 定义 在 同一 概率 空间 (0, 下 ,P) 上 的 两 个 随机 变量 ， 称 
(X,Y) 为 二 维 随机 向 量 (random vector), 并 称 X 和 了 是 二 维 随 机 向 量 (X,Y) 
二 维 随机 向 量 (X,Y) 是 定义 在 样本 空间 2 上 , 取 值 于 R 上 的 函数 . 类 似 ， 
可 定义 n 维 随机 向 量 . 
定义 1.10 设 QQ 为 样本 空间 ， Xi = Xi(w), 2 二 (ww),…, Xn 二 Xn(w) 是 0 
上 的 n 个 随机 变量 ， 则 由 它们 构成 的 n 维 向 量 (XX ,XX2,…, Xn) 称 为 n 维 随 机 





向 量 (n 一 dimensional random vector), 称 Xi 为 头 的 第 i 个 分 量 (component). 


2. 随机 向 量 的 联合 分 布 函数 
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定义 1.11 设 (X,Y) 是 定义 在 (Q, 下, P) 上 的 随机 向 量 ， 对 任意 的 (zx,y) € R， 
二 元 函数 
F(z,y) = P{w: X(w) < 7,y(w) < YY), (1.44) 


称 为 (X,Y) 的 联合 分 布 函数 (joint distribution function), 其 中 {X 之 x,Y <y} 
表示 事件 {X < Z} 与 事件 {Y < 9)} 的 积 事 件 . 


设 1, 义 2,…,Xn 是 一 个 n 维 随机 向 量 ， 对 任意 的 (21 72 ,Tn) E RR",n 


下 (2Z17Z2 Tn) = P{w: Xi(wW) < ri, Xo(w) < ro, 7, Kn(W) < zn,}, (1.45) 





称 为 (Xi, XX2,……, Xn) 的 联合 分 布 函 数 ， 

3. 分 布 函 数 的 性 质 

(1) 对 于 任意 固定 的 y, 当 za > 21 时，(x2,y) 过 下 (219). 对 于 任意 固定 的 
2， 当 y2 > 时 ， F(z, y2) > P(x, Y1), 即 F(x,Yy) 对 每 个 自 变 量 是 单调 不 减 的 . 

(2) 0 < (xz,y) < 1, 且 对 于 任意 固定 的 y, 了 (一 00,y) = 0. 对 于 任意 固定 的 
0; P(x,—00) = 0, F(—o0,—00) = 0, F(+o0,+o00)=1. 

(3) F(z,y) = F(T +0,y), Pr,Y) = P(r,Yy+0), PF(r,Yy) x 于 7z 右 连续 , 
也 关于 y 右 连 续 . 

(4) 对 于 任意 (zt yj， (za,ypo), Zi < 72, V1 < 加 ,下 述 不 等 式 


F(x2,y2) — Plz2,y) — F(xi,Yy2) + P(r,Y) 过 0 
由 以 上 性 质 可 得 以 下 结论 . 
随机 点 (X,Y) 落 在 矩形 域 {x1 < x < x2,y1 <y < vy} 内 的 概率 为 


P{zi1 <X < yi <Y <y} = F(x,Yy)— Fr2,Y) — Fv,Yy2) + P(r,Y). 
(1.46) 





4. 离散 型 二 维 随机 向 量 
定义 1.12 如 果 二 维 随 机 向 量 (X， YY) 的 每 个 分 量 都 是 离散 型 随机 变量 ， 则 称 
(X, 了 ) 是 二 维 离散 型 随机 向 量 . 
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定义 1.13 设 二 维 离散 型 随机 向 量 (X, Y) 所 有 的 可 能 取 值 为 (Ti, yj) 1 一 1, 2， 2 
了 三 1 2 … 的 概率 为 ; 








P{X gp yj} Pij， 7 一 1 2 (1.47) 


则 称 式 (1.47) 为 离散 型 随机 向 量 (X,Y) 的 分 布 律 (联合 分 布 律 ). 
(1) Pij > 0， 2 了 = 二 ”， 
(2) .> 2 p= 
i 
离散 型 随机 向 量 (X,Y》) 的 分 布 函 数 为 : 
F(z,y) = > Pij, vr,y ER. 
Ti<TYi<Y 
5. 连续 型 二 维 随 机 向 量 


定义 1.14 如 果 对 于 二 维 随机 向 量 (X,Y) 的 分 布 函 数 已 (z, 由 ,存在 非 负 的 函数 
f(z,y), 使 对 于 任意 的 X,Yy, 有 


F(z,y) = . f (u,v) du dv, (1.48) 

则 称 (X,Y) 是 连续 型 的 二 维 随机 向 量 ， 函 数 f(z,y) 称 为 二 维 随机 向 量 (X,Y) 
的 概率 密度 函数 ， 

概率 密度 函数 有 如 下 性 质 : 

(1) f(x,y) > 0,v7z,yeR; 

十 co /十 co 
o) |/ f(y) drdy = F(to0, +00) =1 
(3) 在 f(x,y) 的 连续 点 处 有 


O° F(x,Yy) 
OxoOvy 





= f(z,Y); 
(4) 随机 点 (X,Y) 落 在 平面 区 域 G 内 的 概率 为 
P{(X,Y) eG}= || f(x,y) dz dy. 
1 
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6. 边缘 分 布 


X,Y 的 边缘 分 布 (marginal distribution) 函数 分 别 是 


Fx(7) 
Fy(y) 


耕 (X,Y) 为 离散 型 随机 向 量 ， 


为 


P{X = zx;} 


P{Y = y;} 


Fx(7) 


Fy(y) 


若 (X,Y) 为 连续 型 随机 向 量 ， 


P{X <zxz}= P{X<Zx,Y <+o00}= T(r,+00), (1.49) 
P{Y <y}= P{X <+o0,Y <y}= F(+00,y). (1.50) 


X 与 了 的 边缘 分 布 律 及 边缘 分 布 函数 分 别 


二 (1.51) 
j=1 
2 ps = Dp.j) 7 三 1 2 (1.52) 
F(z,+00) = >》， > (1.53) 
mi I=1 
F(t+o0,Y) Sy DO pi (1.54) 
i=1 y;<y 


X 和 了 的 边缘 概率 密度 分 别 为 : 





po = 
yw = 

其 按 比 分布 函数 分 别 为 
mo = Ps9= 广 [三 


7. 常见 二 维 随机 向 量 的 分 布 


(1) 二 维 均匀 分 布 


f(z,y)dy, (1.55) 


f (x,y)dz, (1.56) 
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奇 (X,Y) 具有 如 下 概率 密度 函数 


一 ， (X,Yy)€D, 
f(s | a (1.59) 
0， 其 它 . 


其 中 4 为 平面 区 域 D 的 面积 值 ， 则 称 此 二 维 连续 型 随机 向 量 (X,Y) 在 区 域 D 
内 服从 二 维 均匀 分 布 . 
(2) 二 维 正 态 分 布 N(j1, Ha al, 03,7) 


如 果 (X,Y) 具有 如 下 概率 密度 函数 
1 
f(z, y) 27oloo ] 二 p2 
1 (Fp THY HK) (Yk) 
op 人 -二 | 0 | 
一 co < 2Z < 十 oo, 一 co < V < 十 co. (1.60) 


其 中 pa, ol > 0, oa > 0, |p| < 1 为 实数 ， 则 称 此 二 维 连 续 型 随机 向 量 (X,Y) 
服从 参数 为 j,k2,01,02,p 的 二 维 正 态 分 布 ， 记 作 (X,Y) ~ N(U p42,07,02,7)， 
同时 称 (X,Y) 为 二 维 正 态 随 机 向 量 . 

图 1.6 绘 出 了 p 取 不 同 值 的 情况 ， 在 图 中 ji = 0, j=0,01=1,02=2. 
当 p = 二 0 时 , 随机 变量 六 与 随机 变量 Y 是 独立 的 ， 当 p 了 头 0 时 ， 随 机 变量 X 与 
随机 变量 Y 相关 (不 独立 ), 并 且 当 |p| 越 接 近 1 时 ， 相 关 程 度 越 密切 . 








1.3 ”随机 变量 的 数字 特征 
1.3.1 数学 期 望 


定义 1.15 设 离散 型 随机 变量 X 的 分 布 律 为 P{X = Zi 二 pi, 1 一 12,……， 若 级 
数 2 |zilP; 收敛 , 则 称 级 数 > ,ipi 的 和 为 随机 变量 X 的 数学 期 望 (mathematical 
eZpectatiom) 记 为 忆 ( 儿 ), 即 








到 二) 语 2 Tip; (1.61) 


设 连续 型 随机 变量 X 的 概率 密度 函数 为 J(7), 车 积分 [> |z|f(z)dz 收敛 ， 则 
称 积 分 "> zf(z)dx 的 值 为 随机 变量 X 的 数学 期 望 ， 记 为 (XX), 即 


人 Tf (7r)dz. (1.62) 
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图 1.6: 二 维 正 态 分 布 p 取 不 同 值 的 情况 
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互 (X) 又 称 为 均值 (mean). 

数学 期 望 代表 了 随机 变量 取 值 的 平均 值 ， 是 一 个 重要 的 数字 特征 . 数学 期 望 
具有 如 下 性 质 : 

(1) 若是 常数 ， 则 2(c) = 

(2) Bl(aX +bY) = aB(X) +0B(Y), 其 中 ob 为 任意 常数 ; 

(3) 若 X,Y 相互 独立 ， 则 EB(XY) = E(X)E(Y). 

从 数学 期 望 的 意义 es 的 3 条 性 质 的 意 


Eb 3 站 = >》_aB(X;), (1.63) 
i=1 7 二 1 


其 中 ai(i = 1,2,.……,n) 是 常数 。 


1.3.2 全 一 


定义 1.16 设 X 为 随机 变量 , 如 果 马 {[XX 一 马 (XX)]?2} 存在 , 则 称 B{[X 一 也 (X)]?} 
为 X 的 方差 (variance), 记 为 Var(X)， 即 





Var(X)= E{[X— E(X)]}, (1.64) 


并 称 VVar(X) 为 X 的 标准 差 (standard deviation) 或 均 方 差 (root mean square). 

方差 是 用 来 描述 随机 变量 取 值 相对 于 均值 的 离散 程度 的 一 个 量 , 也 是 非常 重 
要 的 数字 特征 . 方差 有 如 下 和 性质: 

(1) 车 c 是 常数 ， 则 Var(c) = 0; 

(2) Var(aX 十 b) = a*Var(XX), 其 中 a, 为 任意 常数 ; 

(3) 如 果 X,Y 相互 独立 ， 则 Var(X 十 I) = Var(X) 十 Var()， 

从 方差 的 意义 (离散 程度 ), 很 容易 理解 这 3 条 性 质 的 意义 

可 以 证 明 : 





Var(X) = E(X’*)— [EB(X)]. (1.65) 


式 (1.65) 可 作为 方差 的 计算 公式 . 
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1.3.3” 几 种 常用 随机 变量 分 布 的 期 望 与 方差 
(1) 若 X 服从 参数 为 p 的 两 点 分 布 B(1,p), 其 中 0<p<1, 则 
EX)=p Var(X)=p(1—9). (1.66) 
(2) 若 X 服从 参数 为 n,p 的 二 项 分 布 B(n,p), 0 <p <1, 则 
E(X)=np, Var(X)=np(l—W). (1.67) 
(3) 若 X 服从 参数 为 ^ 的 Poisson 分 布 P(A), 则 
E(X)=A Var(X)=X (1.68) 
(4) 若 X 服从 参数 为 a,b 的 均匀 分 布 V[a,9, 则 


ja = 0 2 (1.69) 








(5) 若 X 服从 参数 为 的 指数 分 布 ， 则 
E(X)= > Var(X)= 广 (1.70) 
(6) 若 X 服从 参数 为 4,o 的 正 态 分 布 N(Jo0”), 则 
E(X)=1, Var(X)=0?. (1.71) 
由 式 (1.71), 以 及 期 望 和 方差 的 意义 ， 可 以 进一步 帮助 我 们 理解 图 1.2 的 意义 . 
1.3.4 ， 协 方差 与 相关 系数 


1. 协 方差 


设 X,Y 为 两 个 随机 变量 , 称 BE{[X 一 忆 (X)][Y 一 (7Y)]} 为 XX 和 Y 的 协 方 
差 (covariance), 记 为 Cov(X,Y), 即 


Cov(X,Y) = E{[X — E(X 
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O 


(1) Cov(X,Y)= Cov(Y,X); 
(2) Cov(aX + b,cY +d) = acCov(X,Y), 其 中 aoc,d 为 任意 常数 ; 
(3) Cov(Xi+ X,Y)= Cov(Xi1,Y)+ Cov(X»,Y); 
(4) Cov(X,Y) = BCXY) -EE(X)E(Y), 特别 地 ， 当 X 和 了 相互 独立 时 ， 有 
Cov(X,Y)=0; 
(5) [Cov(X, Y)| < V Var(X)V Var(Y); 
(6) Cov(X,X)= Var(X). 
如 果 Xi 六 2,… ,Xn 是 个 随机 变量 ， 利 用 上 述 性 质 得 到 


Var (So) - > (1.73) 


2 一 1 J]=1 


其 中 ai(i = 1,2,…,n) 是 常数 。 如果 Xi(i = 1,2,…,n) 是 nn 个 相互 独立 的 随机 
变量 ， 则 式 (1.73) 可 改写 为 


Var > a] 二 YatVar(X). (1.74) 
2. 相关 系数 
当 Var(X) > 0, Var(Y) > 0 时 ， 称 
Cov(X,Y) 
PNY) 一 AR De 








为 与 Y 的 相关 系数 (coefficient of correlation), 它 是 无 量 纲 的 量 . :a 
为 : 
(1) |p(X,Y)| < 1; oz = 1 的 充 要 条 件 为 六 与 Y 之 间 有 线性 关系 ， 
即 存在 常数 a,b (a 入 0) 使 得 
P{Y =aX+0}=1. 


具体 地 a > 0 时， 对 应 p(X,Y) = 1; a < 0 了 时， 对 应 p(X,Y) = 一 1. 
(2) 若 六 与 Y 相互 独立 上 且 Var(X), Var(Y) 存在 , 则 p(X,Y) = 0; 特别 地 当 
X 与 卫 均 为 正 态 分 布 时 ，X 与 了 相互 独立 的 充 要 条 件 为 p(X,Y) = 0. 


1.3 随机 变量 的 数字 特征 2 


对 于 二 维 正 态 随机 变量 X, Y, 其 密度 函数 (1.60) 中 的 ji 表示 X 的 均值 ， 
/pa 表示 Y 的 均值 ， cl 表示 X 的 方差 ， 03 表示 Y 的 方差 ，p 表示 XX 与 Y 的 
相关 系数 .这 就 是 为 什么 在 图 1.6 中 ， 当 |p| 越 接近 于 1 时 ， 其 图 形 越 瘤 . 


1.3.5 ”和 矩 与 协 方差 矩阵 


1. 矩 


设 随机 变量 X 有 分 布 函数 (x), 对 任意 给 定 的 正 整 数 〖, 车 (|X|*) 存在 ， 
则 称 


a = E(X*) = 三 zrdF(z) (1.76) 
芒 久 的 月 阶 原点 知 (momentapoutorig 站 对 于 > 1, 若 也 (|X|*) 存在 则 称 
uk=E(X— EX))= [8 — E(X))*dF (xz) (1.77) 
为 天 的 天 阶 中 心 矩 (moment about centre). 
矩 是 广泛 应 用 的 一 类 数字 特征 , 均值 与 方差 分 别 就 是 一 阶 原点 矩 和 二 阶 中 心 
矩 . 
设 分 布 函数 F(z) 有 中 心 矩 ja = EB(X 一 BB(X))”, ps = BB(X 一 (X))”, 则 称 
C; = na/ (1.78) 
为 偏 度 系数 (coefficient of skewness). 


偏 度 系数 是 一 个 无 量 纲 的 量 , 它 刻 划分 布 函 数 的 对 称 性 . 当 Cs > 0 时 ，F(z) 
所 表示 的 概率 分 布 偏向 均值 的 右 侧 ， 反 之 则 偏向 堪 侧 . 
设 分 布 函数 F(z) 有 中 心 矩 1a = EB(X 一 BB(X))?, 14 = B(X 一 忆 (X))4, 则 称 





C4 = a/12 —3 (1.79) 


为 峰 度 系数 (kurtosis). 
峰 度 系数 是 一 个 无 量 纲 的 量 ， 它 刻 划 不 同类 型 的 分 布 的 集中 和 分 散 程度 . 
设 随 机 变量 X 有 均值 / 和 方差 o°, 则 称 


X*=(X—h)/o (1.80) 
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为 标准 化 随机 变量 . 
2. 协 方差 矩阵 
设 = (Xi Xs, 人 ,Xn), Y= (¥, Y2， an Yn) 为 两 个 随机 变量 ， 则 称 


Cov(X, Y) 一 (Gi jnxrm 


为 与 Y 的 协 方差 阵 (covariance matrix), 其 中 oj = Cov( Xi 芒 ) i = 1,2,.… 
ne 

协 方差 阵 具 有 如 

(1) Cov(X,Y) = Cov( 了 区 ) 

(2) Cov(AX 二 7Y) = ACov(X,Y), 其 中 4 是 和 矩阵，5 是 向 量 . 

(3) Cov(X+Y,2)= Cov(X,2Z)+ Cov(Y, 2). 








设 义 == (Xi1,X2,…,Xn) 为 随机 变量 ， 则 称 


Var(X)= Cov(X,X)= (0i;)nxn 


为 外 也 也 称 为 方差 - 协 方 差 窍 阵 (variance-covariance 
matrix), 其 中 0;; = Cov( Xi Xj;), i,j = 1,2,.……,n. 
方差 矩阵 具有 如 下 性 质 : 


(1) Var(X) 半 正 定 ， 即 Yae R", 有 
azVar(X)a > 0. 


(2)YaeER" ,有 
Var(aX) = a’ Var(X)a. 


(3) VY A € R*x", 有 
Var(AX) = AVar(X)A". 
(4) Var( 久 ) = 0 的 充分 必要 条 件 是 ， 3 ae R", c € RR', 使 得 


alX= 人 ce. 
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有 了 协 方差 矩阵 的 概念 ， mn 维 正 态 随机 向 量 的 概率 密度 函数 的 表示 就 变 得 
容易 了 . nn 维 正 态 随机 向 量 X = (Xi1, XX2,…, Xn) 的 概率 密度 函数 为 


1 1 rr 
[Oo 0 


其 中 了 = (CD 72 2] 有 = (jp = (BX1), E(X2),**, BE(Xn))” 
民 =Var(X) 为 n xn 阶 协 方差 矩阵 且 正 定 . 

二 维 正 态 随 机 变量 的 密度 函数 (1.60) 可 以 看 成 n 维 正 态 随 机 向 量 概率 密度 
函数 (1.81) 的 特例 ， 其 中 协 方差 罕 阵 沁 为 


| of | 
» = | 
pO102 O05 


对 于 n 维 正 态 随机 向 量 (Xi X2,……, Xn), 有 如 下 的 性 质 : 

(1) Xi1, 六 2,… ,Xn 相互 独立 与 Xi XX2,.… ,Xn 两 两 互 不 相关 等 价 ; 

(2) 设 六 ,了 3,… ,Yn 均 是 关 1,X2,… ,Xn 的 线性 函数 , 则 (六 ,了 3,… ,Ym) 服 
从 m 维 正 态 分 布 ， 该 性 质 称 为 正 态 分 布 的 线性 变换 不 变性 . 

3. 相关 矩阵 

设 X = (Xi,X2,…,Xn) 为 随机 变量 ， 则 称 


Cor(X)= (Pij)nxn 


为 X 的 相关 甜 阵 (correlation matrix), 其 中 pi; = Cor( Xi Xj), ,j= 1,2,.……,n. 
相关 和 矩阵 具有 如 下 性 质 : 
(1) Cor(X) 为 对 角 线 元 素 均 为 1 的 半 正 定 对 称 甜 阵 . 
(2) 设 部 = (0;j)nxn 为 方差 矩阵 ， 刀 = diag (7 es i oh}; 则 


Cor(X) = D-1¥D-1. 


1.4 极限 定理 
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1.4.1 ”天 数 定律 

大 数 定 律 是 判断 随机 变量 的 算术 平均 值 是 否 向 常数 收敛 的 定律 , 是 概率 论 和 
数理 统计 学 的 基本 定律 之 一 . 
定义 1.17 设 X1, XX2,……, Xk,"… 是 随机 变量 序列 且 (Xi) 存在 (k= 1,2,:….)， 
信 全 日 若 对 于 任意 给 定 的 > 0, 有 








lim P{lY, ~ BE(Y%)| > } =0, 
或 
lim P{|Yh,— E(Y,)| <e}=1, 
则 称 随 机 变量 序列 {Xh} 服从 大 数 定律 . 
关于 大 数 定律 有 : 
1. Bernoulli 大 数 定律 
设 na 是 nn 次 独立 重复 试验 中 事件 4 发 生 的 次 数 ，2 是 事件 4 在 每 次 试验 
中 发 生 的 概率 ， 则 对 于 任意 的 正 数 = > 0, 有 


lim P{| -| <el 二 1. 
N00 


a「f 
2. Chebyshev( 切 比 雪 夫 ) 大 数 定律 


设 随机 变量 X1，X2,，:…，X, … 相互 独立 ， 且 具有 相同 的 期 望 与 方差 
(= 帮 Var(n = 和 (k= 1,2,.…), 则 对 于 任意 的 正 数 e > 0 有 





lim P{|Yn ~—4| <e}=1. 


3. Khintchin( 辛 钦 ) 大 数 定律 


设 随机 变量 XI!，Xo，.…，X%,:… 相互 独立 ， 服 从 相同 的 分 布 ， 且 其 期 望 
BEC) = 到 大 = 1,2,…), 则 对 于 任意 的 正 数 。 > 0, 有 


lim P{|Yh,— xu| <s}=1. 
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奉 对 随机 变量 序列 Xi,，X2，.…， Xk,，.…, 存在 常数 a, 使 得 对 于 任意 的 正 数 
ce>>0, 有 

lim P{|X,—al<ée}=1, 
或 

lim P{|Xn,—al>e}=0) 
成 立 ， 则 称 X。 依 概率 收敛 于 a, 记 作 X -一 %. 故 上 面 的 Chebyshev 大 数 定律 
与 Khintchin 大 数 定 律 有 


J Pp 
0 





对 于 大 数 定律 ， 有 如 下 定理 
定理 1.2 设 随机 变量 X 具有 期 望 刀 (X) = J 方差 Var(X) = o2, 则 对 于 任意 
E>0, 有 
a (1.82) 
称 定 理 1.2 中 的 不 等 式 (1.82) 为 Chebyshev 不 等 式 ， 它 是 一 个 重要 的 理论 
工具 ， 应 用 很 广 ， 例 如 ， 在 有 关 大 数 定律 的 证 明 中 常用 到 它 . 


1.4.2 “中心 极限 定理 











中 心 极限 定理 正 是 从 数学 上 论证 了 这 一 现象 . 
定义 1.18 凡是 在 一 定 条 件 下 ， 断 定 随机 变量 序列 XU Xs，…， Xi 的 部 分 和 
x 二 2 Xk 的 极限 分 布 为 正 态 分 布 的 定理 ， 均 称 为 中 心 极限 定理 . 
大 三 工 
有 两 个 最 著名 的 中 心 极限 定理 . 
1. 独立 同 分 布 的 中 心 极限 定理 
方差 : E(X:) 二 /， Var(X:) 二 0? > 0， k= 1,2, 0 则 随机 变量 
3 Xx — nn 
k=1 


Y, = 
Vno 
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的 分 布 函数 (x) 收敛 到 标准 正 态 分 布 函 数 ， 即 对 于 任意 实数 x, 有 
Jim F(z) = im P{Y, < xz} = B(z), 
其 中 i 
-Bo 
从 中 心 极限 定理 可 知 ， 当 n 足够 大 时 ， 近似 服从 标准 正 态 分 布 N(0, 1)， 
这 在 数理 统计 中 有 非常 重要 的 应 用 . 
2. De Moivre 一 Laplace ( 棣 莫 佛 - 拉 普 拉 斯 ) 中 心 极限 定理 


设 随机 变量 Xi X2,.…, Xk,… 相互 独立 ， 并 且 服 从 参数 为 bp 的 两 点 分 布 ， 
则 对 于 任意 实数 xz, 有 


2, Xi— np 
ln PA4Li _<x)-= B(7). 
了 np(1 —p) 


X; 服从 二 项 分 布 B(n,p). 从 De Moivre - Laplace 中 心 极限 定理 可 知 ， 


当 n 足够 大 时 ， B(n,p) 近似 于 正 态 分 布 ， 它 是 独立 同 分 布 的 中 心 极限 定理 的 特 
殊 情况 . 





1.5 数理 统计 的 基本 概念 





下 面 给 出 数理 统计 的 基本 概念 . 有 关 数 理 统计 的 各 种 方法 和 相应 的 及 软件 
实现 将 在 后 续 的 各 章 中 子 以 讨论 . 
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1.5.1 总体、 个体 、 简 单 随机 样本 


在 数理 统计 中 ， 称 研究 对 象 的 全 体 为 总 体 Population), 通常 用 一 个 随机 变 
量 表示 总 体 ， 组 成 总 体 的 每 个 基本 单元 叫 个 体 (individuals). 

从 总 体 X 中 随机 抽取 一 部 分 个 体 XT X2，……，Xn 称 1, 关 2，… ,Xn 为 取 
自 X 的 容量 为 m 的 样本 (Sample)， 

例如 ,为 了 研究 某 厂 生产 的 一 批 元 件 质量 的 好 坏 ， 规 定 使 用 寿命 低 于 1 于 小 
时 的 为 次 品 ， 则 该 批 元 件 的 全 体 就 为 总 体 ， 每 个 元 件 就 是 个 体 . 实际 上 ， 数 理 统 
计 学 中 的 总 体 是 指 与 总 体 相 联系 的 某 个 (或 茶几 个 ) 数量 指标 X 取 值 的 全 体 . 比 
如 ， 该 批 元 件 的 使 用 寿命 X 的 取 值 全 体 就 是 研究 对 象 的 总 体 . 显然 X 是 随机 变 
量 ， 这 时 ， 就 称 X 为 总 体 . 

为 了 判断 该 批 元 件 的 次 品 率 ， 最 精确 的 办 法 是 取出 全 部 元 件 ， 对 作 元 件 的 寿 
命 试验 . 然而 , 寿命 试验 具有 破坏 性 , 即使 某 些 试验 是 非 破坏 性 的 , 试验 也 要 要 花 
费 人 力 、 物力 、 时 间 , 因此 只 能 从 总 体 中 抽取 一 部 分 , 比如 说 %% 个 个 体 进行 试验 . 
试验 结果 可 得 组 数值 集合 {21, 722,… ,zj}, 其 中 每 个 zi 是 第 i 次 抽样 观察 的 结 
果 . 由 于 要 根据 这 些 观察 结果 来 对 总 体 进行 推断 ， 所 以 对 每 次 抽样 就 需要 有 一 定 
的 要 求 , 要 求 每 次 抽取 必须 是 随机 的 、 独 立 的 , 这 样 才能 较 好 地 反映 总 体 情 况 . 所 
谓 随 机 的 是 指 每 个 个 体 被 抽 到 的 机 会 是 均等 的 , 这 样 抽 到 的 个 体 才 具 有 代表 性 . 
若 X1, X2,.… ,Xn 相互 独立 , 是 每 个 X; 与 义 同 分 布 , 则 称 Xi1, 闵 2,…, Xn 为 简 
单 随机 样本 (simple random sample), 简称 样本 . 通常 把 n 称 为 样本 容量 (sample 
size). 

值得 注意 的 是 ， 样 本 具有 两 重 性 ， 即 当 在 一 次 具体 地 抽样 后 它 是 一 组 确定 
的 数值 . 但 在 一 般 叙 述 中 样本 也 是 一 组 随机 变量 ， 因 为 抽样 是 随机 的 . 今后 ， 用 
Xi1 XX2,… ,Xn 表示 随机 样本 ， 它 们 取 到 的 值 记 为 zt za …,Zn 称 为 样本 观测 
值 (sample value). 


样本 作为 随机 变量 , 有 一 定 的 概率 分 布 , 这 个 概率 分 布 称 为 样本 分 布 . 显然 ， 
样本 分 布 取决 于 总 体 的 性 质 和 样本 的 性 质 . 
总 体 X 具有 分 布 函数 (2), 则 (Xi1,X2,…, Xn) 的 联合 概率 分 布 函数 为 

















F(X1, Xa,.*, Xn) = [|[ F(zi). 


34 第 一 章 概率 统计 的 基本 知识 


大 羡 具有 概率 密度 函数 f(z), 则 (Xi1, XX2,……, Xn) 的 联合 概率 密度 为 


TX Xo Xs | | fC) 
i=] 
例 1.5 要 估计 一 物体 的 重量 a, 用 天 平 将 物体 重复 测量 nn 次， 结果 记 为 X1, Xo， 
…， Xn, 求 样 本 (站 1, XX2，,"…, Xn) 的 分 布 . 

解 : 假定 各 次 测量 是 相互 独立 ， 即 Xi XX2,……, Xn 为 一 简单 随机 样本 ， 再 假 
定 测量 的 随机 误差 服从 正 态 分 布 ,天平 没有 系统 误差 , 因此 随机 误差 的 均值 为 0， 
于 是 总 体 的 概率 分 布 可 假定 为 N(a,o”), 其 中 a 为 物体 之 重量 ， o? 反映 天 平 的 
精度 ， 故 (Xi X2,…, Xn) 的 概率 密度 为 


| 1 
2 = | | .pn)2 
f(z1, T2,* ,Tn; do ) 一 2 DAo “0 {i a) } 


(V27ra) exp {去 2 _(% = "| 


?= 





例 1.6 设 某 电 子 元 件 的 寿命 X 从 指数 分 布 
Me-*, x>0, 
fz, 入 ) = 
0, Z < 0， 


今 从 一 批 产品 中 独立 地 抽取 n 件 进行 寿命 试验 , 测 得 寿命 数据 为 XX1, XX2,………， Xn， 
求 样本 (Xi XX2,…, Xi) 的 概率 分 布 . 

解 : 依 题 意 有 为 Xi, XX2,……,X 是 独立 同 分 布 的 ， 且 Xi ~ f(x, 入 ), 故 所 求 
概率 密度 为 


| 
入 " exp 人 到 化 1) TX2, ,Tn 之 0， 
a ?三 下 
0， 其 它 ， 


1.5.2 ”参数 空间 与 分 布 族 


在 例 1.5 中 总 体 分 布 为 N(a,o7), 其 中 a 与 o? 是 确定 分 布 的 常数 . 例 1.6 中 
总 体 分 布 为 指数 分 布 f(z, 入 ), 和 也 是 确定 分 布 的 常数 .在 数理 统计 中 ， 称 出 现在 
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样本 分 布 中 的 常数 为 参数 (parameter), 因此 ， a, 5c” 和 和 都 是 参数 .这 些 参数 
是 关于 总 体 的 重要 的 数量 指标 ， 然 而， 这 些 参数 往往 是 未 知 的 ， 称 为 未 知 参 数 . 
在 例 1.5 中 ，& 是 未 知 参数 ， 而 o? 是 否 为 未 知 参 数 要 看 人 们 对 天 平 精度 的 了 
解 程度 若 对 天 平 精 度 足 够 了 解 可 以 给 出 o? 的 值 ， 则 co” 就 是 已 知 参 数 ; 大 对 
天 平 的 精度 不 够 了 解 ， 无 法 给 出 o? 的 值 ， 其 至 于 抽样 的 目的 就 是 要 估计 推断 这 
个 精度 ， 那 么 ，o? 就 是 未 知 参 数 ， 这 时 ， 称 (a, o?) 为 参数 向 量 . 参数 所 有 可 能 
的 取 值 构成 的 集合 称 为 参数 空间 .如 例 1.5 中 (a,o”) 都 是 参数 ， 则 参数 空间 为 
9 = {(a,o*): a > 0,0? > 0}. 例 1.6 的 参数 空间 为 8 = {和 :入 >0}. 

当 样 本 分 布 含 有 未 知 参数 时 ， 不 同 的 参数 值 对 应 于 不 同 的 分 布 , 因此 ， 可 能 
的 样本 不 止 一 个 ， 而 是 一 族 ， 则 称 为 样本 分 布 族 ， 同样 ， 存 在 未 知 参数 时 ， 总 体 
分 布 也 是 一 族 , 构成 总 体 分 布 族 . 例 1.5 中 , 若 w 和 c? 都 是 未 知 参 数 ， 则 总 体 分 
布 族 为 {N(a,o”) : a > 0,o? > 0}, 样本 分 布 族 为 {f(z1, 22,… ,Xn;a,0*) :a> 
0,o? > 0}. 在 例 1.6 中 , 若 入 是 未 知 的 ， 则 总 体 分 布 族 为 {f(x, 入) : 入 > 0}, 样本 
分 布 族 为 {f(zx1,7z2,…, Tn, 入 ): 入 > 0}. 














1.5.3 ”统计 量 和 抽样 分 布 


数理 统计 的 任务 是 采集 和 人 处理 带 有 随机 影响 的 数据 , 或 者 说 收集 样本 并 对 之 
进行 加 工 ， 以 此 对 所 研究 的 问题 作出 一 定 的 结论 ， 这 一 过 程 称 为 为 统计 推断 , 在 
统计 推断 中 ， 对 样本 进行 加 工整 理 ， 实 际 上 就 是 根据 样本 计算 出 一 些 量 ,使 得 这 

些 量 能 够 将 所 研究 问题 的 信息 集中 起 来 . 这 种 根据 样本 计算 出 的 量 就 是 下 面 将 要 
定义 的 统计 量 ， 因此 ， 统 计量 是 样本 的 茶 种 函数 . 
定义 1.19 设 Xi XX2,…,Xh 是 总 体 X 的 一 个 简单 随机 样本 ， T (Xi, X2，…， 
Xn) 为 一 个 吨 元 连续 函数 ， 且 了 中 不 含 任何 关于 总 体 的 未 知 参 数 ， 则 称 了 (Xi， 
Xo，…，Xn) 为 一 个 统计 量 W081GUI3W@)， 称 统计 量 的 分 布 为 柏 样 分 布 (SMDUiR9 
distribution). 

1. 常用 的 统计 量 

(1) 样本 均值 

设 Xi1, Xo,… ,Xn 是 总 体 X 的 一 个 简单 随机 样本 ， 称 





= Te 
及 一 一 Xi 1.83 
(1.83) 
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为 样本 均值 (sample mean). 通常 用 样本 均值 来 估计 总 体 分 布 的 均值 和 对 有 关 总 
体 分 布 均值 的 假设 作 检验 . 

(2) 样本 方差 

设 ,Xo,…,X 是 总 体 X 的 一 个 简单 随机 样本 ， 又 为 样本 均值 ， 称 


nN 


三 2 (1.84) 


为 样本 方差 (sample variance). 通常 用 样本 方差 来 估计 总 体 分 布 的 方差 和 对 有 关 
总 体 分 布 均值 或 方差 的 假设 作 检 验 ， 
(3) 大 阶 样本 原点 矩 
设 XXX 是 总 体 X 的 一 个 简单 随机 样本 ， 称 


二 lS~xt (1.85) 
2 一 工 








样本 的 天 阶 原点 窍 ， 通 常用 样本 的 大 阶 原点 矩 来 估计 总 体 分 布 的 有 阶 原点 害 . 
(大 阶 样本 中 心算 
设 Xi X2，…,Xn 是 总 体 X 的 一 个 简单 随机 样本 ， X 为 样本 均值 ， 称 


nn 


Mi = -5 Ca (1.86) 


zi 
样本 的 阶 中 心 第 ， 通 常用 样本 的 阶 中 心 矩 来 佑 计 总 体 分 布 的 & 阶 中 心 矩 . 
(5) 顺序 统计 量 
设 Xi Xo,…, Xn 是 抽 自 总 体 X 的 样本 ， ZX1, x2, ……， zn 为 样本 观测 值 ， 
将 Zu za …， zn 按照 从 小 到 大 的 顺序 排列 为 


20) < X02) < rn), 


当 样 本 Xi1, XX， I Xn 取 值 为 TX1, XL2, mm 时 ， 定义 入 (KK ) 取 值 为 TL(k) (k = = 
1,2,.……,n), 称 X(1)) 入 ()， 2 信人 m) 为 xX; 入 2， Xn 的 网 序 生计 吾 (order 


statistic) . 

显然 ，X() = min {Xi} 是 样本 观测 中 取信 最 小 的 一 个 ， 称 为 最 小 顺序 统计 
量 (smallest order statistic). Xn) = max {Xi} 是 样本 观测 中 取 值 最 大 的 一 个 ， 
称 为 最 大 顺序 统计 量 (largest order statistic). 称 Xo) 为 第 7 个 顺序 统计 量 . 
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(6) 经 验 分 布 函数 
设 Xi X2,…, Xn 是 抽 自 总 体 的 样本 ，X ~ (x), 则 称 
及 GD) = -EK(z), 一 co <Z< oo 


为 经 验 分 布 函 数 (expirical distribution), 其 中 K(x) 表示 Xi, Xo， 
于 XX 的 个 数 . 
经 验 分 布 函数 也 可 以 表示 成 





0， 2 < 入 0D)， 
F(z) 一 从 ( 则 <T< 入 (RHD， 


n) 


二， 化 > 入 
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(1.87) 


mW 市 不 类 


[1.88 


F(z) 是 一 个 跳跃 函数 , 其 跳跃 点 是 样本 观测 值 . 在 每 个 跳跃 点 处 跳跃 度 均 为 1/n. 
图 1.7 所 示 的 是 n = 10, 抽 目 总 体 N(0,1) 的 经 验 分 布 函数 和 N(0, 1) 的 总 


体 分 布 函数 图 . 
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图 1.7: 经 验 分 布 和 总 体 分 布 


对 于 经 验 分 布 函数 有 以 下 结果 ( Glivenko ( 格 里 文科 ) 1933 年 证 明 ) 


Pi ap _IRO-PaI- 中 -1 


moo 一 co<Z<co 


(1.89) 
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这 个 结果 表明 对 任意 的 实数 x 当 n 充分 大 时 ， 经 验 分 布 函数 与 总 体 分 布 函数 的 
差异 很 小 ， 因 此 n 充分 大 时 实际 上 可 用 F(x) 近似 代替 (x). 


2. 常用 的 分 布 和 分 位 数 


(1) x 分布 
设 Xi 六 2, …, Xn 是 来 自 总 体 N(0,1) 的 一 个 简单 样本 ， 则 称 统计 量 


也 一 2 十 和 2 十 十 大 2 (1.90) 























图 1.8: x 分 布 密度 函数 曲线 


给 出 了 于 =1、 妈 = 和 4 和 寻 = 10 的 xx 分 布 密度 函数 曲线 . 

从 图 1.8 可 以 看 出 ， x 分 布 密度 函数 曲线 的 峰值 偏 左 ， 其 偏 度 系数 C。 为 
正 . 当 n 越 小 时 ， 密 度 曲 线 越 陡 峭 ， 其 峰 度 系 数 Ci 就 越 大 ， 当 n 越 大 时 ， 曲 线 
越 平 坦 ， 其 峰 度 系数 Cx 就 越 小 . 

车 对 于 给 定 的 a, 0 < a < 1 存在 2(p) 使 


P{XC > xa(n)} = om 


则 称 点 Xa(p) 为 x 分 布 的 上 a 分 位 点 ， 图 1.9 所 示 的 是 n==5,a=0.1 的 x 
分 布 的 上 a 分 位 点 xa(n). 
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图 1.9: x 分 布 的 上 a 分 位 点 


x 分 布 具有 如 下 性 质 . 

(i) 可 加 性 , 设 页 ~ (mm), YW ~ (由 ), 且 两 者 相互 独立 ， 则 矶 十 殉 ~ 
x m+n). 

Qi) 期望 值 与 方差 . 车 ~ (nn), 则 EE(Y)=n, Var(Y) = 2n. 

(2) t+ 分 布 

设 关 ~N(0,1),Y~ 癌 (n), 是 X,Y 相互 独立 ， 则 称 随 机 变量 

X 
VY/n 

为 服从 自由 度 为 n 的 t 分 布 (t-distribution), 记 为 TT ~ t(n). 

图 1.10 给 出 了 n=1、n 一 2、n 一 5 和 n= co 的 上 分 布 密度 函数 曲线 . 

从 图 1.10 可 以 看 出 ， 分 布 是 对 称 分 布 ， 其 偏 度 系 数 Cs 为 0. n 越 小 ， 其 
峰 度 系数 Cx 越 大 ，7 越 大 ， 其 峰 度 系数 Ci 越 小 . 

若 对 于 给 定 的 a, 0 < a < 1, 称 满足 





厂 一 





(1.91) 


P{T > ta(n)} = 0a, 


的 点 ta(n) 为 t 分 布 的 上 a 分 位 点 ， 图 1.11 所 示 的 是 n=5, a = 0.1 的 t+ 分 布 
的 上 CQ 分 了 林 后 ta(n). 
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图 1.10: 上 分 布 密度 函数 曲线 
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图 1.11: t 分 布 的 上 a 分 位 点 


由 于 tt 分布 的 概率 密度 函数 f(t) 是 偶 函 数 ， 即 f(t) = 太一 力 , 关于 t= 0 对 
称 ， 因 此 对 一 切 n, 有 EE(T) = 0. 并 且 


ee 
—tn(a) 


所 以 ti_a(n) 二 —ta(n). 


15 数理 统计 的 基本 概念 4 


(3) 分布 
设 针 ~~x(n),Y~(m), 且 六 和 YY 相互 独立 ， 则 称 随机 变量 
_X/n 
= (1.92) 


为 服从 自由 度 为 (n,m) 的 玉 分 布 (F-distribution), 称 为 第 一 自由 度 ，m 为 第 
二 目 由 度 , 记 为 了 ~ 了 (n,m). 

图 1.12 所 示 的 是 7 = 5,m = 20,7n=7,m= 20,n= 20,m= 20,n = 20, 
m 二 2 和 n= 20, m= 二 7 的 了 分 布 密 度 函 数 曲 线 . 























图 1.12: 了 分布 密 度 函 数 曲线 


大 对 于 给 定 的 a, 0 < a < 1, 称 满足 
P{F > Fa(n,m)} = a, 


的 点 fa(n,m) 为 下 分 布 的 上 a 分 位 点 . 
图 1.13 所 示 的 是 n= 5, m= 8, Qa 二 0.1F 分 布 的 上 a 分 位 点 fo(n,m). 
分 布 具 有 如 下 性 质 : 
GD) X~ Fn,m), NI/X~ Fm,n); 
(i) Fi_a(n,m) = re 


到) 设 XX~tn), 则 X? ~ F(1,n). 
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图 1.13: 分 布 的 上 a 分 位 点 


1.5.4 ， 正 态 总 体 样本 均值 与 样本 方差 的 分 布 


设 入 ,Xo,…, Xn 是 来 自 于 正 态 总 体 NU c”) 的 样本 ， X，3” 分 别 为 样本 
均值 和 样本 方差 ， 则 有 


(1.93) 
(1.94) 


(1.95) 





且 革 与 52 相互 独立 . 
设 入 1， 入 2， ”7 Xn 与 了 1， 了 2， eg Yn 分 别 是 来 自 于 正 态 总 体 N(n1,07), 
N(12,03) 的 样本 ， 且 这 两 样本 相互 独立 ， 则 有 


(1.96) 


(1.97) 
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若 有 f=02==02, 且 o? 未知 则 


C= =m 


/1 1 
Ow pe 


(ni — 1)S1 + (no — 1)53 
ni 十 n2 一 2 


X, 了 分别 是 两 样本 的 均值 ， 5?, 53 分 别 是 两 样本 的 方差 . 





中 


5S2 一 (1.99) 


习题 一 


1.1 设 有 m 个 人 ,每 个 人 都 以 相同 的 概 举 一 二 被 分 入 NN 个 室 (N > m) 中 任意 

个 室 中 去 住 ， 且 每 室 中 人 数 不 限 ， 半 轩 讨 有 演 宇 ， 菜 

(1) 某 指 定 的 m 个 室 中 每 室 各 分 入 上 人 的 概率 ; 

(2) 恰 有 m 个 室 ， 其 中 每 室 各 分 入 1 人 的 概率 ， 

(3) 车 和 N= 10, m = 6, 求 恰 有 两 人 分 入 同一 室 ( 即 恰 有 一 室 ， 其 中 恰 分 入 了 
两 个 人 ) 的 概率 . 
1.2 甲 、 乙 两 轮 驶 向 一 个 不 能 同时 停泊 两 轮 的 码头 ， 它 们 在 一 备 夜 内 到 达 的 时 
刻 是 等 可 能 的 . 设 甲 轮 的 停泊 时 间 是 1 小时， 乙 轮 的 停泊 时 间 是 2 小 时 ， 求 二 
轮 都 不 需 等 待 码头 空 出 的 概率 . 
1.3 一 批 产品 共有 20 件 ， 其 中 有 5 件 次 品 ， 其 余 为 正品 现 依次 进行 不 放 回 机 
取 三 次 ， 求 : 

(1) 第 三 次 才 取 到 次 品 的 概率 ; 

(2) 在 第 一 、 第 二 次 取 到 正品 的 条 件 下 ， 第 三 次 取 到 次 品 的 概率 ; 

(3) 第 三 次 取 到 次 品 的 概率 . 
1.4 有 朋 自 远方 来 ， 他 来 火车 、 轮 船 、 汽 车 、 飞 机 来 的 概率 分 别 为 0.3, 0.2, 0.1， 
0.4. 如 果 他 乘 火 车 、 轮 船 、 汽 车 、 飞 机 来 的 话 ,迟到 的 概率 分 别 为 1/4, 1/3, 1/12， 
而 乘 飞机 则 不 会 迟到 ， 现 朋友 迟到 了 ， 问 他 是 乘 火车 来 的 概率 是 多 少 ? 
1.5 设 每 人 血清 中 含有 肝炎 闹 毒 的 概率 为 0.004, 随机 混合 100 人 的 血清 ， 求 此 
血清 中 含有 肝炎 病毒 的 概率 ， 
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1.6 甲 、 乙 、 两 三 门 高 射 炮 彼 此 独立 地 向 同一 架 飞 机 射击 ， 设 甲 、 乙 、 丙 炮 射 中 
飞机 的 概率 分 别 为 0.7, 0.8, 0.9. 

(1 了) 求 飞 机 被 射 中 的 概率 ; 

[2) 又 设 车 只 有 一 门 炮 射 中 飞机 坠毁 的 概率 为 0.7, 若 有 两 门 炮 射 中 飞机 附 
般 的 概率 为 0.9, 车 三 门 炮 都 射 中 ， 飞 机 必 鞋 毁 ， 求 飞机 坠毁 的 概率 ， 


1.7 一 个 靶子 是 半径 为 2 米 的 圆 盘 ， 设 击 中 靶 上 任 一 同心 圆 盘 上 的 点 的 概率 与 
该 圆 盘 的 面积 成 正比 ， 并 设 射击 都 能 中 靶 ， 以 外 表示 弹 着 点 与 圆心 的 距离 ， 试 
求 随机 变量 X 的 分 布 函数 . 

1.8 某 单 位 招聘 2500 人 ， 按 考试 成 绩 从 高 分 到 低 分 依次 录用 ,共有 10000 人 报 
和 名， 假设 报名 者 的 成 绩 入 ~ N(10?), 已 知 90 分 以 上 有 9359 人 ， 60 分 以 下 有 
1151 人 ， 问 被 录用 者 中 最 低 分 为 多 少 ? 

1.9 现 有 90 台 同 类 型 的 设备 ， 各 台 设 备 的 工作 是 相互 独立 的 ， 发 生 故 障 的 概率 
是 0.01, 且 一 台 设 备 的 故障 能 由 一 人 处 理 ， 配 备 维修 工人 的 方法 有 两 种 ， 一 种 是 
3 人 分 开 维护 ， 每 人 负责 30 人 台 ， 另 一 种 是 由 3 人 共同 维护 90 人 台 ， 试 比较 两 种 
方法 在 设备 发 生 故 障 时 不 能 及 时 维修 的 概率 的 大 小 . 

1.10 设 二 维 随机 向 量 (X,Y) 的 分 布 函数 为 ; 





1 一 2-z 一 2 十 2-7-y， vr>0,y>0, 
F(2,Y) = | 
0， 其 它 ， 
求 P{l<X<2,3<Y<5}. 


1.11 一 个 党 中 装 有 5 只 球 ， 其 中 4 只 红 球 ， 只 白 球 ， 每 次 从 中 随机 地 抽取 
一 只 ， 取 后 不 放 回 ， 连 续 抽取 两 次 ， 令 


有 1， 著 第 一 次 机 到 红 球 ， 1， 著 第 二 次 机 到 红 球 ， 
0， 著 第 一 次 拍 到 和 白 球 ， 0， 著 第 二 次 拍 到 白 球 ， 


(1) (X,Y) 的 联合 分 布 律 
(2)P{X > Y}. 


3 题 ~ 5 
1.12 设 二 维 随机 变量 ( 义 ,Y) 的 联合 概率 密度 函数 为 


Ae-Q21%), 7 > 0,v>0, 
f(x,Yy) = | 
0, 其 它 . 
求 ; 
(1) 常数 A; 
(2) P{—-1<X<1,-—1<Y<1}; 
(9) DP{X FY Ih 
(4) (X,Y) 的 联合 分 布 函 数 F(z,Yy). 

1.13 飞机 场 送 客 汽车 载 有 20 位 乘客 ， 离 开机 场 后 共有 10 个 车 站 可 以 下 车 ， 
若 某 个 车 站 无 人 下 车 该 车 站 则 不 停车 . 设 乘客 在 每 个 车 站 下 车 的 可 能 性 相等 且 他 
们 的 行动 相互 独立 ， 以 克 表示 停车 的 次 数 ， 求 EB(X). 

1.14 某 保 险 公 司 制 定 赔偿 方案 :， 如果 在 一 年 内 一 个 顾客 的 投保 事件 A 发 生 ， 
该 公司 就 赔偿 该 顾客 a 元, 若 已 知 一 年 内 事件 A 发 生 的 概率 为 D, 为 使 公司 收益 
的 期 望 值 竺 于 a 的 5%, 该 公司 应 该 要 求 顾客 交纳 多 少 元 的 保险 费 ? 

1.15 设 在 总 体 N(1,0?) 中 抽取 一 容量 为 n 的 样本 ， 这 里 /4,0? 均 为 未 知 ， 当 
n= 二 16 时, 求 P{5?/o? < 2.04}. 

1.16 设 从 1) 及 2， 本 .An 和 1， Y2， a 了 mr 有 是 分 别 来 自 于 正 态 总 体 X~ VC 0”) 
和 ~ N(12,07), 且 相 互 独立 ， 则 以 下 统计 量 服 从 什么 分 布 ? 


(n— 1)(S? + 52) [= 


7? 
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第 二 章 ”及 软件 的 使 用 


在 第 一 章 ， 介 绍 了 概率 统计 的 基本 概念 ， 从 本 章 开 始 介绍 如 何 用 R 软件 求 
解 统计 问题 ， 在 介绍 各 种 方法 之 前 ， 先 对 R 软件 作 一 个 基本 的 介绍 . 


2.1 R 软件 简介 


R 是 一 个 开放 的 统计 编程 环境 ， 是 一 种 语言 ， 是 S 语言 的 一 种 实现 . S 语 
言 是 由 AT&T Bell 实验 室 的 Rick Becker, John Chambers 和 Allan Wilks 开发 
的 一 种 用 来 进行 数据 探索 、 统 计 分 析 、 作 图 的 解释 型 语言 . 最 初 S 语言 的 实现 版 
本 主要 是 SPLUS, S-PLUS 是 一 个 商业 软件 ， 它 基于 S 语言 ， 并 由 MathSoft 公 
司 的 统计 科学 部 进一步 完善 . R 是 一 种 软件 ， 是 一 套 完 整 的 数据 处 理 、 计 算 和 
制图 软件 系统 ， 其 功能 包括 ， 数据 存储 和 处理 系统 ， 数 组 运算 工具 ， 完 整 连贯 也 
统计 分 析 工 具 ， 优 秀 的 统计 制图 功能 . 简便 而 强大 的 编程 语言 ， 可 操纵 数据 的 输 
入 和 输出 ， 可 实现 分 支 、 循 环 ， 用 户 可 上 自 定义 功能 . 

Auckland (奥克兰 ) 大 学 的 Robert Gentleman 和 Ross Ihaka 及 其 他 志愿 人 
员 开 发 了 一 个 R 系统 ， 目 前 由 R 核心 开发 小 组 维护 ， 他 们 完全 自愿 、 工 作 努 力 
负责 ， 并 将 全 球 优秀 的 统计 应 用 软件 打包 提供 给 我 们 .我 们 可 以 通过 R 软件 的 
网 站 (http://www.r-project.org) 了 解 有 关 R 的 最 新 信息 和 使 用 说 明 ， 得 到 最 新 
版 本 的 R 软件 和 基于 R 的 应 用 统计 软件 包 . 

R 是 完全 免费 的 ， 而 S-PLUs 尽管 是 非常 优秀 的 统计 分 析 软 件 ， 但 是 需要 付 
费 的 ， 及 可 以 在 UNIX 、Windows 和 Macintosh 的 操作 系统 上 运行 ， 它 栓 入 了 
一 个 非常 实用 的 帮助 系统 ， 并 具有 很 强 的 作 图 能 力 . R 的 使 用 与 S-PLUS 有 很 
多 类 似 之 处 ， 两 个 软件 有 一 定 的 兼容 性 . ”S-PLUs 的 使 用 手册 ， 只 要 经 过 不 多 的 
修改 就 能 成 为 R 的 使 用 手册 . 

与 其 说 R 软件 是 一 种 统计 软件 ， 还 不 如 说 及 是 一 种 数学 计算 环境 ， 因为 及 
提供 了 有 弹性 的 、 互 动 的 环境 来 分 析 、 可 视 及 展示 数据 ， 它 提供 了 若干 统计 程序 
包 ， 以 及 一 些 集成 的 统计 工具 和 各 种 数学 计算 、 统 计 计 算 的 函数 ， 用 户 只 需 根据 
统计 模型 ,指定 相 应 的 数据 库 及 相关 的 参数 , 便 可 灵活 机 动 的 进行 数据 分 析 等 工 
作 ， 甚 至 创造 出 符合 需要 的 新 的 统计 计算 方法 . 使 用 R 软件 可 以 简化 你 的 数据 
分 析 过 程 ， 从 数据 的 存 取 ， 到 计算 结果 的 分 享 ， 及 软件 提供 了 更 加 方便 的 计算 
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工具 ， 帮 助 你 更 好 地 决策 . 通过 R 软件 的 许多 内 髓 统计 函数 ， 用 户 可 以 很 容易 
学 习 和 掌握 R 软件 的 语法 ， 也 可 以 编制 自己 的 函数 来 扩展 现 有 的 R 语言 ， 完 成 
你 的 科研 工作 . 


2.1.1 及 软件 的 下 载 与 安装 
R 软件 是 全 免费 的 ， 在 网 站 : 


http://cran.r-project.org/bin/windows/base/ 
可 下 载 到 R 软件 的 Windows 版 ， 当 前 的 版 本 是 R-2.3.1 版 (2006 年 6 月 1 日 
发 布 ), 大 约 是 27 兆 ， 点 击 R-2.3.1-win32 下 载 ， 或 者 选择 距离 你 最 近 的 镜像 
(mirror near you) 下 载 . 注意 , 在 R-2.2.0 版 本 以 前 是 点 击 rwXXXX. exe 下载 ， 其 
中 XXXX 是 版 的 序号 ， 如 本 书 使 用 的 版 本 是 R-2.1.1, 则 点 击 rw2011 .exe 下 载 . 

R 软件 可 以 在 Windows 95, 98, ME, NT4, 2000, XP 和 2003 上 运行 ， 最 好 
选择 Windows 98 以 上 的 操作 系统 . 

R 软件 安 闭 非 常 容易 , 运行 你 刚才 下 载 的 程序 , 如 R-2.3.1-win32.exe (R for 
Windows Setup), 按照 Windows 的 提示 安装 即 可 . 当 你 开始 安装 后 , 选择 安装 提示 
的 语言 (中 文 或 英文 ), 接受 安装 协议 ， 选 择 安装 目录 ( 缺 省 值 C:\Program Files 
\R\R-2.3.1), 并 选择 安装 组 件 . 在 安装 组 件 中 ， 最 好 将 PDF Reference Manual 
项 也 选 上 ， 这 样 在 R 软件 的 帮助 文件 中 有 较为 详细 的 PDF 格式 的 软件 说 明 . 

注意 , 在 R-2.2.0 以 前 的 版 本 , 在 安装 组 件 中 , 一 定 要 选择 东亚 语言 版 (Version 
for East Asian languages), 否则 在 中 文 Windows 操作 系统 下 的 及 窗口 会 出 现 乱 
码 . 

按照 Windows 的 各 种 提示 操作 ， 你 稍 候 片 刻 ， R 软件 就 安 半 成 功 了 . 

安装 完成 后 , 程序 会 创建 R 程序 组 并 在 桌面 上 创建 R 主 程序 的 快捷 方式 (也 
可 以 在 安装 过 程 中 选择 不 要 创建 ). 通过 快捷 方式 运行 R, 便 可 调 出 及 的 主 窗口 ， 
如 图 2.1 所 示 . 

R 软件 的 界面 与 Windows 的 其 他 编程 软件 相 类 似 ， 是 由 一 些 菜单 和 快捷 按 
钮 组 成 . 快捷 按钮 下 面 的 窗口 便 是 命令 输入 窗口 ， 它 也 是 部 分 运算 结果 的 输出 窗 
口 ， 有 些 运算 结果 (如 图 形 ) 则 会 在 新 建 的 窗口 中 输出 . 

主 和 窗口 上方 的 一 些 文字 (如 果 是 中 文 操作 系统 ， 则 显示 中 文 ) 是 刚 运行 R 时 
出 现 的 一 些 说 明和 指引 . 文字 下 的 > 符号 便 是 R 的 命令 提示 符 (矩形 光标 ), 在 其 
后 可 输出 命令 ， R 一 般 采 用 交互 式 工作 方式 ， 在 命令 提示 符 后 输入 命令 ， 回 车 
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文件 编辑 其 地 程序 包 窗口 帮助 


所 | 四 [| 


R Console 





R : Copyright 2006, The R Foundation for Statistical Computing 
Version 2.3.1 {2006-06-01) 
ISBN 3-900051-07-0 
R 是 免费 软件 入 件 ， 不 承 任 何 担保 。 
症 某 些 条 忻 下 你 可 以 将 其 自由 散布 。 
用 '1license1) ' 或 '1licence1)' 来 看 散布 的 详细 条 人 忻 。 
R 是 个 合作 计划 ， 有 许多 人 为 之 做 出 了 页 献 . 
eh 的 情况 
用 ,citationf) ,会 告诉 你 如 何在 出 版 物 中 正确 地 引用 或 R 程 序 包 。 
用 'demo1) ' 来 看 一 些 示 范 程 序 ， 用 'help1) 来 阅读 在 线 帮 助 文 件 ， 或 
Me 
‘qi R. 


-上 


图 2.1: R 软件 主 窗口 


后 便 会 输出 计算 结果 . 当然 也 可 将 所 有 的 命令 建立 成 一 个 文件 ,运行 这 个 文件 的 
全 部 或 部 分 来 执行 相应 的 命令 ， 从 而 得 到 相应 的 结果 . 这 种 计算 方式 更 加 简便 ， 
具体 计算 过 程 ， 将 在 后 面 进行 讨论 . 
2.1.2 初 识 BR 

用 三 个 简单 的 例子 ， 认 识 一 下 R 软件 . 
例 2.1 某 学 校 在 体检 时 测 得 12 名 女 中 学 生体 重 Xi (千克 ) 和 胸围 XX (厘米 ) 次 
料 如 表 2.1 所 示 ， 试 计算 体重 与 胸围 的 均值 与 标准 差 

解 :直接 在 主 窗 口 输入 命令 ， 

> # 输入 体重 数据 

> X1 <- c(35, 40, 40, 42, 37, 45, 43, 37, 44, 42, 41, 39) 

> mean(X1) ”# 计算 体重 的 均值 

[1] 40.41667 


> sd(X1) # 计算 体重 的 标准 差 
[1] 3.028901 
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表 2.1: 学 生体 检 资 料 


学 生 编号 | 体重 XX 胸围 X | 学 生 编号 | 体重 Xi 胸围 X， 


1 43 78 
2 37 66 
3 44 70 
4 42 65 
5 41 73 
6 39 75 





> # 输入 胸围 数据 

> X2 <- c(60, 74, 64, 71, 72, 68, 78, 66, 70, 65, 73, 75) 
> mean(X2) # 计算 胸围 的 均值 

[1] 69.66667 

> sd(xX2) # 计算 胸围 的 标准 差 

[1] 5.210712 


从 上 述 计 算 过 程 来 看 ， R 软件 计算 这 些 统计 量 非 常 简 单 ， 我 们 来 逐 句 作 一 
下 解释 . 


(中 写 是 说 明 语 句 字 符 ， # 后 面 的 语句 是 说 明 语句 ， 大 家 学 习 运用 说 明 语 


句 ， 来 说 明 程序 要 作 的 工作 ， 增 加 程序 的 可 读 性 . 

<- 表示 赋值 ， c( ) 表示 数组 ，X1<-c( ) 即 表示 将 一 组 数据 赋 给 变量 X1. 

mean( ) 是 求 均 值 函 数 ， mean Xi) 表示 计算 数组 X1 的 均值 

[1] 40.41667 是 计算 结果 , 这 里 的 [1] 表示 第 1 行 ，40.41667 是 计算 出 的 
均值 ， 即 这 12 名 女生 的 平均 体重 是 40.42 千克 . 

sd( ) 是 求 标准 差 函 数 ， sd(X1) 表示 计算 数组 xX1 的 标准 差 . 

上 述 过 程 中 的 > 号 ， 均 是 计算 机 提示 符 . 

当 你 退出 R 系统 时 ， 计 算 机 会 询问 你 是 否 保 存 工 作 空 间 映 象 ， 你 可 选择 保 
存 (是 (Y)) 或 不 保存 ( 否 (WD)). 
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如 果 想 将 上 述 命令 保存 在 文件 中 , 希望 以 后 调用 ,可 以 先 将 所 有 的 命令 放 在 
一 个 文件 中 . 用 鼠标 点 击 “ 文 件 ” 窗口 下 的 “建立 新 的 程序 脚本 ”, 则 屏幕 会 弹出 
一 个 及 编辑 (R Editor) 窗口 ， 在 窗口 中 输入 相应 的 命令 即 可 .然后 将 文件 保存 
起 来 ， 如 文件 名 ”exam0201.R. 
例 2.2 绘 出 例 2.1 中 12 名 学 生体 重 与 胸围 的 散 点 图 和 体重 的 直方 图 . 

解 : 在 主 窗口 下 输入 

> Xl<-c(35，40，40，42，37，45，43，37，44，42，41，39) 

> X2 <- c(60, 74, 64, 71, 72, 68, 78, 66, 70, 65, 73, 75) 

> plot (X1, X2) 


则 R 软件 会 打开 一 个 新 的 窗口 ， 新 窗口 绘 出 体重 与 胸围 的 散 点 图 ， 如 图 2.2 所 
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图 2.2: 12 名 学 生体 重 与 胸围 的 散 点 图 


再 键入 
> hist(X1) 
则 屏幕 会 弹出 另 一 个 新 窗口 ， 新 窗口 绘 有 体重 的 直方 图 ， 如 图 2.3 所 示 . 
例 2.3 设 有 文本 文件 exam0203.txt, 其 内 容 与 格式 如 下 : 
Name Sex Age Height Weight 
Alice F 13 56.5 84.0 
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Frequency 


Becka 
Gail 
Karen 
Kathy 
Mary 
Sandy 
Sharon 
Tammy 
Alfred 
Duke 
Guido 
James 
Jeffrey 
John 
Philip 
Robert 


0.5 1.0 1.5 2.0 2.5 3.0 


0.0 
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Histogram of X1 
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12 
13 
12 
16 
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X1 
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图 2.3: 12 名 学 生体 重 的 直方 图 





65.3 98.0 
64.3 90.0 
56.3 77.0 
59.8 84.5 
66.5 112.0 
51.3 50.5 
62.5 112.5 
62.8 102.5 
69.0 112.5 
63.5 102.5 
67.0 133.0 
57.3 83.0 
62.5 84.0 
59 .0 99 .5 
72.0 150.0 
64.8 128.0 
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Thomas M 11 57.5 85.0 

William M 15 66.5 112.0 
其 中 第 一 行 相 当 于 表 头 ， 是 说 明 变 量 属性 的 ， 即 说 明 各 列 的 内 容 ， 如 第 一 列 是 姓 
名 ,第 二 列 是 性 别 ， 第 三 列 是 年 龄 ， 第 四 列 是 身高 (厘米 ), 第 五 列 是 体重 ( 磅 ). 从 
第 二 行 至 最 后 一 行 是 变量 的 内 容 . 试 从 该 文件 中 读 出 数据 ， 并 对 身高 和 体重 作 回 
归 分 析 . 

解 :(1) 建立 R 文件 (文件 名 : ”exam0203.R). 点 击 “ 文 件 | 建立 新 的 程序 脚 
本 ”, R 窗口 会 弹出 R 编辑 对 话 窗口 (R Editor), 在 窗口 中 输入 需要 编辑 的 程序 
(命令 ) 

rt<-read.table("exam0203.txt", head=TRUE); rt 
lm.sol<-lm(Weight“Height, data=rt) 
summary (lm.so1) 

下 面 解释 一 下 每 一 个 命令 的 意义 . 文件 的 第 一 行 是 读 文 件 exam0203.txt, 并 
认为 文本 文件 exam0203.txt 中 的 第 一 行 是 文件 的 头 (head=TRUE); 否则 《FALSE) 
文件 中 的 第 一 行 作为 数据 处 理 ， 并 将 读 出 的 内 容 放 在 变量 rt 中 . 第 二 个 rt 是 
显示 变量 的 内 容 (如 果 一 行 执行 多 个 命令 ， 需 用 分 号 (;) 隔 开 ). 

第 二 行 是 对 数据 rt 中 的 重量 (Weight) 与 高 度 (Height) 作 线性 回归 ， 其 计 
算 结果 放置 变量 lm.sol 中 . 

第 三 行 是 显示 变量 lm. sol 中 的 详细 内 容 ， 它 将 给 出 了 回归 的 模型 公式 、 残 
差 的 最 小 最 大 值 等 ， 和 线性 回归 系数 ， 以 及 估计 与 检验 等 ， 有 关 具 体 含义 将 在 后 
面 作 详细 介绍 . 

(2) 执行 文件 exam0203.R 的 内 容 . 执行 文件 中 的 内 容 有 几 种 方式 ,第 一 种 ， 
在 R 编辑 窗口 中 用 鼠标 选中 要 执行 的 程序 (命令 ), 然后 再 单 击 “ 执 行 行 或 选择 
项 ”, 如 图 2.4 所 示 . 第 二 种 方法 是 单 击 “ 编 辑 | 执行 一 切 ”. 第 三 种 方法 是 采取 
复制 、 粘 贴 的 方法 将 命令 粘贴 到 主 窗口 ， 执 行 相 应 的 命令 . 

执行 后 得 到 

> rt<-read.table('"exam0203.txt", head=TRUE); rt 




















Name Sex Age Height Weight 
1 Alice 了 13 56.5 84.0 
2 Becka F 13 65.3 98.0 
3 Gail 了 14 64.3 90.0 
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RGui 





文件 编辑 程序 包 窗口 帮助 
Ce 加 


执行 行 或 选择 项 








图 2.4: 执行 R 编辑 窗口 中 的 命令 


4 Karen 了 12 56.3 77.0 
5 Kathy F 12 59.8 84.5 
6 Mary F 15 66.5 112.0 
7 Sandy FF 11 51.3 50.5 
8 Sharon F 15 62.5 112.5 
9 Tammy F 14 62.8 102.5 
10 Alfred M 14 69.0 112.5 
11 Duke M 14 63.5 102.5 
12 Guido M 1i5 67.0 133.0 
13 James M 12 57.3 83.0 
14 Jeffrey M 13 62.5 84.0 
15 John M 12 59.0 99.5 
16 Philip M 16 72.0 150.0 
17 Robert M 12 64.8 128.0 
18 Thomas M 11 57.5 85.0 


19 William M 15 66.5 112.0 
> lm.sol<-lm(Weight “Height, data=rt) 


> summary (lm.so1) 


Call: 
lm(formula = Weight ~ Height, data = rt) 
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Residuals: 
Min 1Q Median 3Q Max 
-17.6807 -6.0642 0.5115 9.2846 18.3698 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) -143.0269 32.2746 -4.432 0.000366 *** 
Height 3.8990 0.5161 7.555 7.89e-07 +*** 


Signif. codes: 0 ’***’ O.001 ?**’” 0.01 ?#” 0.05 ”.”0.1 ”?”1 


Residual standard error: 11.23 on 17 degrees of freedom 
Multiple R-Squared: 0.7705, Adjusted R-squared: 0.757 
F-statistic: 57.08 on 1 and 17 DF, p-value: 7.887e-07 
在 执行 中 ， 主 窗口 会 重复 显示 编辑 窗口 的 命令 ,如 主 窗口 显示 的 第 一 行 与 编 
辑 徐 口 的 第 一 行 完全 相同 . 第 二 行 以 下 的 内 容 是 显示 变量 rt, 也 就 是 文本 文件 
exam0203.txt 中 的 内 容 ， 注 意 到 ， 显 示 内 容 比 原 内 容 增 加 了 一 列 ， 即 标号 列 . 
在 summary(lm.sol) 后 面 显示 的 是 线性 回归 模型 具体 计算 的 结果 . 
从 上 面 三 个 列子 可 以 看 出 ， 利 用 R 软件 计算 各 种 统计 量 十 分 方便 ， 可 以 作 
图 ， 也 可 以 从 文件 中 读数 据 等 ， 掌 握 这 些 基 本 知识 ， 就 可 以 用 R 软件 来 为 我 们 
服务 . 
为 今后 使 用 方便 ， 先 介绍 窗口 中 的 菜单 、 快 捷 方 式 的 意义 . 




















2.1.3 ”RR 主 窗口 命令 与 快捷 方式 
主 窗 口中 的 快捷 方式 如 图 2.5 所 示 ， 相 关 含义 在 主 窗口 命令 中 解释 
1. 文件 
主 窗 口中 的 “文件 " 窗口 如 图 2.6 所 示 . 
(1) 输入 及 代码 .， 


执行 要 输入 的 程序 . 单 击 “ 输 入 EB 代码. . .”, 打开 “选择 要 输入 的 程序 文件 ” 
窗口 ， 选 择 要 输入 的 程序 文件 (后 级 为 .R), 如 MyFile.R. 选择 好 要 输入 的 文件 ， 
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保存 映像 中 断 目 前 的 计算 
打开 程序 脚本 粘贴 


| | 


| | 
载 入 映像 ”| 复制 和 粘贴 


复制 打印 





图 2.5: 主 徐 口中 的 快捷 方式 及 意义 








编辑 其 地 程序 包 窗口 帮助 
输入 E 代 码 ... 











建立 新 的 程序 脚本 

打开 程序 脚本 . . . 

显示 文件 ... 

载 入 工作 空间 ， 5， The R Foundation for Statistical Computing 
保存 工作 空间 .. . 005-06-20), ISBN 3-900051-07-0 

载 入 历史 ..， g 

保存 历史. . . 二 

改变 当前 目录 ... icence1) ' 来 看 散布 的 详细 条 件 。 

打印 ... te 

保存 到 六 件 ... ' 来 看 详细 的 情况 

pm ey 


图 2.6: 主 窗 口中 的 文件 菜单 





按 “打开 (0)”. R 软件 会 执行 该 文件 (MyFile.R), 但 在 主 窗口 并 不 显示 所 执行 的 
内 容 (如 有 绘图 命令 ， 则 在 另 一 窗口 显示 出 所 绘图 形 ), 而 只 在 主 窗口 显示 

> source("MyFile.R") 
当然 ， 在 主 和 窗口 执行 source("MyFile.R") 命令 ， 具 有 同样 的 功能 

(2) 建立 新 的 程序 脚本 

建立 一 个 新 程序 脚本 . 单 击 “ 建 立新 的 程序 脚本 ”, 打开 一 个 新 的 R 程序 编 
辑 窗 口 ， 输 入 你 要 编写 的 R 程序 . 输入 完毕 后 ， 选 择 保存 ， 并 给 一 个 文件 名 ， 如 
MyFile.R. 

(3) 打开 程序 脚本 ... 

打开 已 有 的 程序 脚本 . 单 击 “ 打 开 程 序 脚本 . . .”, 打开 “open script” 窗 
口 ， 选 择 一 个 R 程序 ， 如 MyFile.R, 屏幕 弹出 MyFile.R 编辑 窗口 ， 可 以 利用 这 
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个 窗口 对 R 程序 (MyFile.R) 进行 编辑 ， 或 执行 该 程序 中 的 部 分 或 全 部 命令 . 

(4) 显示 文件 ... 

显示 已 有 的 文件 . 单 击 “显示 文件 . . .”, 打开 “select files” 和 窗口， 选择 
一 个 文件 (*.R 或 *.q), 如 MyFile.R. 屏幕 弹出 MyFile.R 窗口 , 可 利用 该 窗口 执 
行 该 程序 (MyFile.R) 的 部 分 或 全 部 命令 ,但 无 法 用 该 窗口 对 该 程序 进行 编辑 . 

(5) 载 入 工作 空间 ... 

调 入 已 保存 的 工作 空间 映像 文件 . 单 击 “ 载 入 工作 空间 ...”, 打开 “选择 要 载 
入 的 映像 ” 窗口 ,在 文件 名 窗口 输入 要 载 入 的 文件 名 , 如 MyWorkSpace, 文件 类 型 是 
* .RData. 当 调 用 成 功 后 ， 保 存在 工作 空间 映像 MyWorkSpace.RData 中 的 全 部 命 
令 就 被 调 到 内 存 中 ， 这 样 在 本 次 运算 时 ， 就 不 必 重 复工 作 空 间 MyWorkSpace.RData 
中 已 有 的 命令 . 

执行 命令 

> load("MyWorkSpace.RData") 
具有 同样 的 功能 . 

(6) 保存 工作 空间 ... 

将 当前 的 工作 空间 映像 保存 成 一 个 文件 . 单 击 “ 保 存 工作 空间 ...”, 打开 “ 保 
存 映像 到 ”窗口 ， 在 文件 名 窗口 输入 所 需 的 文件 和 名， 如 MyWorkSpace, 文件 类 型 
为 *.RData, 按 “保存 (3S)”, 则 当前 的 工作 空间 映像 就 保存 到 MyWorkSpace.RData 
文件 中 . 如 果 你 保存 的 文件 名 与 已 有 的 文件 名 重 名 ,， 则 计算 机 会 提示 你 是 否 蔡 换 
已 有 文件 ， 你 可 选择 蔡 换 (是 (Y)), 或 不 替换 ( 否 (N)). 

保存 工作 空间 映像 的 最 大 好 处 就 是 , 在 下 次 调用 时 ,不 必 执 行 本 次 运算 已 执 
行 的 命令 . 

执行 命令 

> Save.image("MyWorkSpace.RData'") 
具有 同样 的 功能 . 

(站 载 入 历史 , 

调 入 历史 记录 文件 到 内 存 中 . 调 入 后 ， 主 窗口 并 不 显示 调 入 内 容 ， 只 有 在 你 
按 上 下 第 头 , 或 Ctrl+P 、 Ctrl+N, 才 在 命令 行 显示 历史 记录 , 这样 做 可 以 减少 
你 的 键盘 输入 ， 

(8) 保存 历史 . . 
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将 在 主 窗 口 操作 过 的 全 部 记录 保存 到 一 个 文件 中 (后 级 为 .Rhistory), 如 





MyWork.Rhistory. 该 文件 是 纯 文本 文件 ， 用 任何 编辑 器 均 能 打开 . 


(9) 改变 当前 目录 ... 
改变 你 当前 的 工作 目录 . 在 缺 省 状态 下 ， R 的 工作 目录 是 
C:\Program Files\R\rw2011 


如 图 2.7 所 示 . 在 窗口 输入 所 需 的 工作 目录 , 如 D:\XueYi\MyWorkSpace, 也 可 按 
Browse, 选择 所 需要 的 工作 目录 ， 按 OK 键 确认 . 


Chamge director7 


当前 目录 改 成 : 





图 2.7: 改变 当前 目录 窗口 


(10) 打印 ..， 
打印 文件 . 

(11) 保存 到 文件 ... 

将 主 窗 口 的 记录 保存 到 文本 文件 中 (lastsave.txt). 

(12) 退出 

退出 R 系统 ， 如果 退出 前 没有 保存 工作 空间 映像 ， 则 系统 会 提示 你 保存 工 








作 空 间 映 像 ， 你 可 选择 保存 (是 (Y)), 或 不 保存 ( 否 (N)). 


在 主 窗口 执行 q() 命令 ， 具有 同样 的 功能 . 
2. 编辑 

主 窗口 中 的 “编辑 ”窗口 如 图 2.8 所 示 . 
(1) 复制 

将 当前 选中 的 文本 复制 到 剪贴 板 中 . 

(2) 粘贴 

将 剪贴 板 中 的 内 容 粘 贴 到 命令 行 . 
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复制 Ctrl+C 


] 粘贴 Ctrl1+Y 
只 能 用 粘贴 命令 
复制 和 粘贴 CtrlHX 
选择 一 切 






清除 控制 台 Ctrl1+L 


图 2.8: 主 窗口 中 的 编辑 菜单 


(3) 复制 和 粘贴 

将 当前 选中 的 文本 复制 到 剪贴 板 中 ， 并 将 剪贴 板 中 的 内 容 粘 贴 到 命令 行 . 
(4) 选择 一 切 

选 定 主 窗口 中 的 所 有 文本 内 容 . 

(5) 清除 控制 台 

清除 主 窗口 中 的 所 有 文本 内 容 . 

(6) 数据 编辑 器 ... 


编辑 已 有 的 数据 变量 ， 并 将 新 数据 存 入 该 变量 . 例如 ， 在 例 2.3 中 ， 将 读 
出 的 数据 放 在 变量 rt 中 ， 现 需要 改动 rt 中 的 数据 ， 单 击 “数据 编辑 器 ”, 弹出 
“Question” 窗口 ， 输 入 变量 rt, 如 图 2.9 所 示 . 按 OK, 弹出 数据 编辑 窗口 ， 如 


Question 


数据 框 或 矩阵 名 





图 2.9: Question 窗口 
图 2.10 所 示 . 你 选择 需要 修改 的 数据 进行 修改 ， 修 改 后 关闭 该 窗口 ， 此 时 变量 
rt 中 的 数据 已 变 成 新 数据 . 
在 主 和 窗口 执行 EX 命令， 可 以 达到 同样 的 目的 ， 
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reren la Ts 








| sl lr ls 6 | 
了 lSandv 了 于 于 Sis3 S05 


图 2.10: 数据 编辑 带 和 窗口 


(7) GUI 选项 ... 

改变 R 的 图 形 用 户 界面 单 击 “GUI 选项 . ..”, 弹出 Rgui 配置 编辑 器 . 你 
可 根据 需要 更 改 配置 编辑 咒 中 的 内 容 . 建议 初学 者 先 不 忙于 更 改 配 置 , 使 用 缺 省 
值 . 

3. 其 他 

主 窗口 中 的 “其 他 ”窗口 如 图 2.11 所 示 . 


列 出 目标 对 象 
删除 所 有 的 目标 对 象 
列 出 查找 路 径 





图 2.11: 主 窗口 中 的 其 他 菜单 


(1) 中 断 目前 的 计算 

单 击 “ 中 汤 目 前 的 计算 ”可 停止 当前 正在 执行 的 程序 . 

(2) 缓冲 输出 

单 击 “缓冲 输 出 ”会 在 “缓冲 输出 ”前 出 现 或 取消 Vv, 即 执行 或 取消 缓冲 输 


(3) 列 出 目标 对 象 
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单 击 “ 列 出 目标 对 象 ， 列 出 全 部 变量 名 在 主 窗口 执行 8 命令 ， 可 以 达 
到 同样 的 目的 . 


单 击 “删除 所 有 目标 对 象 , 将 全 部 变量 从 内 存 中 清除 . 在 主 窗口 执行 


rm(list=1s(all=TRUE)) 
命令 ， 可 以 达到 同样 的 目的 . 
(5) 列 出 查找 路 径 


单 击 “ 列 出 查找 路 径 ”, 列 出 查找 文件 (或 函数 ) 的 路 径 或 程序 包 ， 以 下 基本 
的 路 径 和 程序 包 . 


[1 ".GlobalEnv" "package:methods" "package:stats" 
[4] "package:graphics" "package:grDevices" "package:utils" 
[7] "package:datasets" "Autoloads'" 


在 主 徐 口 执行 李强 CHO 命令， 可 以 达到 同样 的 目的 . 
4. 程序 包 
主 窗 口中 的 “程序 包 ” 窗口 如 图 2.12 所 示 . 


"package:base" 


文件 编辑 其 地 晤 ER 到 窗口 ”帮助 





R Console 


用 本 机 的 zip 文 件 来 实 装 程序 包 


图 2.12: 主 窗口 中 的 “程序 包 ” 菜单 





(1) 载 入 程序 包 . . . 

R 软件 除 上 述 基本 程序 包 外 ， 还 有 许多 程序 包 ， 只 是 在 使 用 前 需要 调 入 ， 
如 需要 读 SPSS 软件 的 数据 文件 ， 需 要 用 函数 read.spss, 但 在 使 用 前 需要 调 入 
foreign 程序 包 . 

单 击 “和 慌 入 程序 包 . . .”, 弹出 选择 程序 窗口 ， 如 图 2.13 所 示 . 选择 foreign， 
按 确定 ， 这 样 就 可 以 使 用 read.spss 函数 . 

(2) 选择 CRAN 镜像 .. 
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Select one 





图 2.13: 选择 程序 包 窗 口 


单 击 “选择 CRAN 镜像 ”, 弹出 CRAN 镜像 窗口 ， 选 择 一 个 镜像 点 , 按 “ 确 定 ”， 
联接 到 指定 的 镜像 点 . 

(3) 选择 存放 处 ，， ， 

选择 程序 包 库 ， 打 开 库 窗 口 ， 选 择 一 个 座 ， 按 “确定 ” 计算 机 将 自动 联接 到 
所 选 的 库 ， 

(4) 安装 程序 包 .. 

安装 新 的 程序 包 ， 单 击 “ 安 装 程序 包 ”, 弹出 CRAN 镜像 窗口 ， 选 择 合适 的 镜 
像 点 ， 按 “确定 ". 此 时 ， 计 算 机 将 自动 联接 到 指定 的 镜像 点 ， 下 载 程序 包 ， 并 自 
动 安装 . 

(5) 更 新 程序 包 .. 

更 新 已 有 的 程序 包 ， 单 击 “ 更 新 程序 包 ”, 弹出 CRAN 镜像 窗口 ， 选 择 合适 的 
镜像 点 ， 按 “确定 ”. 此 时 ， 计 算 机 将 自动 联接 到 指定 的 镜像 点 ， 下 载 程序 包 ,并 
自动 更 新 

(6) 用 本 机 的 zip 文件 来 安装 程序 包 . 

打开 “Select files”, 选择 需要 安装 的 zip 文件 
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5. 窗口 
主 窗口 中 的 “窗口 ”窗口 如 图 2.14 所 示 . 








图 2.14: 主 窗口 中 的 “窗口 ”菜单 


(1) 层 秋 

将 所 有 和 窗口 层 释 . 
(2) 平 铺 
将 所 有 窗口 平 铺 . 
(3) 安排 按钮 


6. 帮助 
主 窗 口中 的 “帮助 ”窗口 如 图 2.15 所 示 . 








关于 Yindows 上 了 FR 的 FA 

手册 人 IF 文件 ) BR 和 门 
F 参 考 手册 

eh 全 R 激 据 导 入 /导出 

查找 帮助 RH 语言 定义 

i 如 何 写 R 扩 展 程序 


Search.r-project. org ,.. 














图 2.15: 主 窗口 中 的 “帮助 ”菜单 


(1) 控制 台 
说 明 控制 命令 ， 单 击 “控制 台 ”, 弹出 说 明 控制 命令 窗口 ， 如 图 2.16 所 示 . 在 
窗口 中 说 明 全 部 的 控制 命令 . 
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Information 


滚动 。 
诈 PF Pelown, Ctrl+ 筋 头 键 ， Ctrlt+Home, Ctrlt+End, 
YW 莉 屿 虽 


修改 。 
移动 鼠标 : 
左 荫 头 或 Ctrl+B: 左 移 一 字符 ; 
右 盘 头 或 Ctrl+F:， 右 移 一 字符 ; 
Home 或 Ctrl1t&， 称 到 | 行头 ; 
Et 移 到 行 尾 ; 
历史 : 上 ， 下 将 头 ，Ctrl+P，Ctrl+ 


| 除 
了 el 或 Ctr1+D: 删除 在 目前 位 剖 胸 主 符 : 
Backspace; 册 除 目 并 前 位 置 之 前 前 的 字 
Ctrl+Del 或 Ctrl+K， 册 | 除 目 前 位 置 
Ctrl+U: 从 目前 所 在 的 行 开 始 删 除 
复制 和 粘贴 . 
用 鼠标 ( 特 续 按 下 去 键 ) 来 选择 女 
用 Shi ft+Del (或 Ctrl+C) 把 选择 
用 Shi ft+Ins [或 CtrlL+VY 或 Ctrl+Y 
生生 齐全 ， CtrlHX 先 复制 再 粘贴 


Ctrl+L: 清除 控制 台 
Ctrl+0: 开关 重 写 状态 : 最 初 是 关 掉 的 。 
Ctrl4T: 将 目前 所 在 位 置 的 字符 与 其 左 方 的 字符 交换 。 


注意 : 只 有 被 更 新 。 
用 CtrlHy 来 开关 这 一 


用 SC 来 中 断 注释 器 。 


可 以 用 Windows 的 标准 热 键 来 转换 
绎 图 设备 (IDI 用 Ctrl+Tab 或 Ctrl+F6，SDI 用 癌 t+tTab) 





图 2.16: 控制 命令 窗口 


(2) 关于 邓 的 FAQ 

R 常见 问答 .FAQ 是 frequently asked questions 的 简写 单 击 “关于 R 的 
FAQ”, 弹出 R FAQ 网 页 式 窗 口 ， 解 释 R 的 基本 问题 ， 及 的 介绍 、 R 基本 知 
识 、R 语言 与 S 语言 ， 以 及 R 程序 等 . 

(3) 关于 Windows 上 R 的 FAQ 

关于 R 软件 的 进一步 的 常见 问答 . 单 击 “关于 R 的 FAQ”, 弹出 R for Win- 
dows FAQ 网 页 式 和 窗口 ， 其 内 容 有 安装 与 用 户 、 程 序 包 、Windows 的 特点 、 工 作 
空间 和 控制 台 与 字体 等 ， 该 窗口 的 问题 更 加 深入 . 

(4) 手册 (PDF 文件 ) 


给 出 R 软件 的 使 用 手册 . 有 《 R 入 门 》、《 R 参考 手册 》、《 R 数据 导入 
/ 导出 》、《 R 语言 的 定义 》、《 写 及 扩展 程序 》 和 《 R 安装 与 管理 》. 所 有 





2.1 R 软件 简介 65 


手册 均 是 PDF 格式 的 文件 “. 这 些 手册 为 学 习 R 软件 提供 了 有 利 的 帮助 . 

以 上 三 条 文本 帮助 文件 是 逐步 深入 的 ， 用 它们 可 以 帮助 使 用 者 快速 掌握 R 
软件 的 使 用 . 

(5) R 函数 (文本 文件 ).… 

帮助 命令 . 相当 于 help("Fun_Name"). 单 击 “R 函数 (文本 文件 )…， 出 现 
帮助 对 话 窗 口 ， 在 窗口 中 输入 需要 帮助 的 函数 名 ， 如 lm( 线 性 模型 ) 函数 ， 按 0K， 
则 屏幕 上 会 出 现 新 的 对 话 框 ， 解 释 lm 的 意义 与 使 用 方法 . 

当 帮 助 不 成 功 时 , 计算 机 会 建议 你 使 用 help.search("read.spss") (查找 帮 
助 ). 

(6) Html 帮助 

网 页 形式 的 帮助 窗口 ， 单 击 “Html 帮助 ”, 弹出 网 页 形式 的 窗口 菜单 ， 使 用 
者 可 以 选择 需要 帮助 的 内 容 ， 双 击 ， 打 开 和 需要 的 内 容 . 

(7) 查找 帮助 ... 

查找 帮助 ， 相 当 于 help.search("Fun_Name"). 单 击 “查找 帮助 . . .”, 出 现 
查找 帮助 对 话 窗口 ， 在 窗口 中 输入 需要 帮助 的 函数 名 ， 如 lm( 线 性 模型 ) 函数 ， 
按 OF 键 ， 则 屏幕 上 会 出 现 新 的 对 话 框 ， 上 面 列 出 与 lm (线性 模型 ) 有 关 的 全 部 
函数 名 (包括 广义 线性 模型 函数 名 ). 

(8) search.r-project.org 


在 网 站 上 查找 . 单 击 “search.r-project.org”, 屏幕 出 现 “ 搜 索 邮件 列表 档案 
和 文档 ”对 话 框 ,输入 查找 内 容 ， 则 计算 机 将 自动 联接 网 站 ( http://search.r- 
project.org), 查找 你 需要 的 内 容 . 

(9) 关于 ... 

列 出 相关 的 函数 与 变量 . 相当 于 apropos ("Fun_Name"). 单 击 “ 关 于 ...”， 
出 现 关于 对 话 窗口 ， 在 窗口 中 输入 需要 查找 的 函数 名 或 变量 名 ， 如 lm, 按 OK, 则 
屏幕 上 会 出 现 新 的 对 话 框 ， 上 面 列 出 含有 字符 串 lm 的 全 部 函数 名 与 变量 名 . 

注意 : “有 函数 (文本 文件 ).” 和 “关于 . . .” 是 在 当前 已 有 的 程序 包 中 查 











找 ， 而 “查找 帮助 . . . ”是 在 整个 程序 包 中 查找 . 例如 ，“ 帮 助 ”和 “关于 ”对 话 杠 


中 输入 “read.spss”( 读 SPSS 数据 文件 函数 ), 则 主 窗口 出 现 “character (0)?”， 
:需要 在 你 的 计算 机 中 安装 PDF 阅读 软件 Adobe Acrobat Reader 才能 阅读 使 用 手册 . 
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即 无 法 查 到 . 而 利用 “查找 帮助 ”对 话 框 ， 则 屏幕 上 会 出 现 新 的 窗口 ， 告 诉 你 
read.spss 属于 foreign 程序 包 . 

(10) R 主页 

联接 到 R 主页 ， 即 http://www.T-project.org/. 

(11) CRAN 主页 

联接 到 CRAN 主页 ， 即 http://cran.r-project.org/. 

(12) 关于 

介绍 R 的 版 本 信息 . 


2.2 数字、 字符 与 向 量 





本 市 介绍 R 软件 最 简单 的 运算 ， 数 字 与 向 量 的 运算 . 
2.2.1 向量 


1. 向 量 的 赋值 
R 软件 中 最 简单 的 运算 向 量 赋值 . 如 果 打 算 建 立 一 个 名 为 x 的 向 量 ， 相 应 
的 分 量 是 10.4 5.6, 3.1 6.4 和 21.7, 用 R 命令 是 
> X<- c(10.4, 5.6, 3.1, 6.4, 21.7) 
其 中 xz 是 变量 名 ， <- 为 赋值 符 ， c( ) 为 向 量 建立 函数 . 上 述 命令 就 是 将 函数 
c( ) 中 数据 赋 给 变量 x. 
男 一 个 赋值 函数 是 B5183( 力 其 命令 形式 为 
> assign("x", c(10.4, 5.6, 3.1, 6.4, 21.7)) 
第 三 种 赋值 形式 为 
> c(10.4, 5.6, 3.1, 6.4, 21.7) -> x 
进一步 有 
>y <- c(x, 0, x) 


定义 变量 y 有 11 个 分 量 ， 其 中 两 边 是 变量 x ， 中 间 是 零 ， 
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对 于 向 量 可 以 作 加 (+)、 减 (-) 、 乘 (*) 、 除 (/) 和 乘 方 (人 ) 运算 ， 其 含意 
是 对 向 量 的 每 一 个 元 素 进 行 运 算 ， 其 中 加 、 减 和 数 乘 运算 与 我 们 通常 的 向 量 运算 
基本 相同 ， 如 

> x <- c(-1, 0, 2); y <- c(3, 8, 2) 

>vVv<- 2*+x+y+1;yv 

[1] 2 9 7 
第 一 行 , 输入 向 量 x 和 y. 第 二 行 , 将 向 量 的 计算 结果 赋 给 变量 v, 其 中 2*x+y 是 
作 通 常 的 向 量 运算 ， +1 表示 向 量 的 每 个 分 量 均 加 1. 分 号 后 的 v 是 为 显示 计算 
内 容 ， 因 为 R 软件 完成 计算 后 进行 赋值 ， 并 不 显示 相应 的 计算 内 容 . 

对 于 回 量 的 乘法 、 除 法 、 乘 方 运算 , 其 意义 是 : 对 应 向 量 的 每 个 分 量 作 乘法 、 

除法 和 乘 方 运算 ， 如 
[1] -3 0 4 
>x/y 
[1] -0.3333333 0.0000000 1.0000000 
> x°2 
[1] 1 0 4 
>yx 
[1] 0.3333333 1.0000000 4.0000000 
由 于 没有 作 赋 值 运 在 运算 后 会 直接 显示 计算 结 

男 外 ， 
5 砚 砚 3 为 引 . 

还 可 以 作 函 数 运算 ,如 基本 初等 函数 ， 如 log, exp, cos, tan, sqrt 等 . 当 自 变 
量 为 向 量 时， 函数 的 返回 值 也 是 向 量 ， 即 每 个 分 量 取 相应 的 函数 值 . 如 

> exp(x) 
[1] 0.3678794 1.0000000 7.3890561 













































> sqrt(y) 

[1] 1.732051 2.828427 1.414214 
但 sqrt(-2) 会 给 出 NAN 和 相应 的 警告 信息 ， 因 为 负数 不 能 开 方 . 但 如 果 需 要 作 
复数 运算 ， 则 输入 形式 应 改 为 sqrt (-2+0i). 


3. 与 向 量 运算 有 关 的 函数 
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> X<- c(10, 6, 4, 7, 8) 
> min(x) 

[1] 4 

> max(x) 

[1] 10 


> range(x) 


[1] 4 10 
与 min()(max()) en 


> which.min(x) 
[1] 3 
> which.max(x) 
[1] 1 
2) 求 和 函数 、 求 乘积 孙 数 . 




















硬 ( 罗 表 示 求 向 量 x 分 量 之 和 ， 即 3 zi. 0d( 国 表示 求 向 量 zx 分 量 联 乘 
积 ， 即 II zi 还 有 Eti(@) 表示 求 向 量 回 委 基 将 本 数 ， 即 网 
(3) 中 位 数 、 均 值 、 方 差 、 标 准 差 和 顺序 统计 量 . 


三 cdian(Z) 表示 求 向 量 z 的 中 位 数 、 而 6an(2) 表示 求 向 量 x 的 均值 ， 即 
sum(zZ)/length(z). var(z) 表示 求 向 量 z 的 方差 ， 即 


var(7) =sum ((z — mean(7x))”) /(length(x) — 1). 
fdq(Z) 表示 求 向 量 z 和 即 sd(x) = Vvar(7). 


567t(2) 表示 求 与 向 量 > 大 小 相同 , 按 递增 顺序 排列 的 向 量 , 即 顺序 统计 车， 
相应 的 下 标 由 Gder(z) 或 B63t:list(x) 列 出 ， 例如 ， 当 x<-c(10，6，4，7，8) 
时 ，sum(z) 、prod(z) 、length(z) 、median(z) 、mean(z) 、var(z) 和 sort(Z) 
的 计算 结果 分 别 是 35 、13440、5、7、7、5 和 4 6 7 8 10. 

有 关 均 值 、 方 差 等 统计 量 的 性 质 和 函数 的 使 用 方法 ， 在 第 三 章 还 会 介绍 . 
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2.2.2 ”产生 有 规律 的 序列 


1. 等 差 数 列 


所 吕 表示 从 a 开始 ， 逐 项 加 1( 或 减 1), 直到 b 为 止 . 如 x <- 1:30 表示 问 
量 z= (1,2,:…,30), Xx 《<- 30:1 表示 向 量 z = (30,29,:…,1). 当 a 为 实数 ，b 
为 整数 时 ， 向 量 a:b 是 实数 ， 其 间隔 差 1. 而 当 a 为 整数 ，b 为 实数 时 ， a:b 表 
示 其 间隔 差 1 的 整数 向 量 ， 如 
> 2.312:6 
[1] 2.312 3.312 4.312 5.312 
[1] 4567 
注意 :x <- 2*1:15 并 不 是 表示 2 到 15, 而 是 表示 癌 量 z = (2, 4,:…,30)， 
即 x <- 2 * (1:15), 也 就 是 等 差 运 算 优 于 乘法 运算 . 同 理 ， 1:n-1 并 不 是 表示 
1 到 ml, 而 是 表示 向 量 1:n 减 去 1 若 需 要 表示 1 到 n-1, 则 需要 对 n-1 加 括号 . 
比较 下 面 两 种 表示 的 差别 . 


> n<-5 











> 1:n=1 
[1] O1234 
> 1:(n-1) 
[1] 1234 
注意 : 这 一 点 对 于 初学 者 非常 容易 引起 混淆 . 
2. 等 间隔 函数 
Baq9 函数 是 更 一 般 的 函数 ， 它 产生 等 距 间 隔 的 数列 ， 其 基本 形式 为 
seq(from=valuel, to= value2, by=value3) 
即 从 valuel 开始 ， 到 value2 结束 ， 中 间 的 间隔 为 value3. 如 
> seq(-5, 5, by=.2) -> sl 
表示 向 量 s1 = (一 5.0, 一 4.8, 一 4.6,.… ,4.6, 4.8, 5.0). 从 上 述 定义 来 看 ， seq(2,10) 
等 价 于 2:10, 在 不 作 特 别 声明 的 情况 下 ， 其 间隔 为 1. 
对 于 seq 函数 还 有 另 一 种 使 用 方式 ， 


seq(length=value2, from=valuel, by=value3) 
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即 从 valuel 开始 ， 间 隔 为 value3, 其 向 量 的 长 度 为 value2. 如 
> s2 <- seq(length=51, from=-5, by=.2) 
产生 的 s2 与 向 量 sl 相同 ， 
3. 重复 函数 
EapO 是 重复 函数 ， 它 可 以 将 某 一 向 量 重复 若干 次 再 放 入 新 的 变量 中 ， 如 
> 8 <- rep(x, times=3) 
即将 变量 x 重复 3 倍 ， 放 在 变量 s 中 .如 
> x <- c(1, 4, 6.25); x 
[1] 1.00 4.00 6.25 


> s <- rep(x, times=3); s 


[1] 1.00 4.00 6.25 1.00 4.00 6.25 1.00 4.00 6.25 


2.2.3 ”逻辑 向 量 
与 其 它 语言 一 样 ， R 软件 允许 使 用 逻辑 操作 当 逻 辑 运 算 为 真 时 ， 返 回 值 
为 TRUE, 当 逻 辑 运 算 为 假 时 ， 返 回 值 为 FALSE. 例如 
> X <- 1:7 
>1<-x>3 
其 结果 为 
>1 
[1] FALSE FALSE FALSE TRUE TRUE TRUE TRUE 
逻辑 运算 符 有 “，<=，>，>=，== (表示 等 于 ) 和 !=( 表 示 不 等 于 ). 如 果 c1 
和 c2 是 两 个 逻辑 表达 式 ， 则 cl & c2 表示 c1 “与 ” c2, cl | c2 表示 cl “或 ” 
c2，!cl 表示 “ 非 c1 ”， 
逻辑 变量 也 可 以 赋值 ， 如 
> z <- c(TRUE, FALSE, F, T) 
其 中 T 是 TRUE 的 简写 ，F 是 FALSE 简写 . 
判断 一 个 逻辑 疝 量 是 否 都 为 真 值 的 函数 是 i311 如 
> all(c(1，2，3，4，5，6，7) > 3) 
[1] FALSE 
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判断 是 否 其 中 有 真 值 的 函数 是 any, 如 
> iy(c(1, 2, 3, 4, 5, 6, 7) > 3) 
[1] TURE 


2.2.4 ”缺失 数据 
用 品 表示 某 处 的 数据 缺 省 或 缺失 ， 如 


>z <- c(1:3, NA); z 
[1] 1 2 3 NA 
函数 8ma() 是 检测 缺失 数据 的 函数 ， 如 果 返 回 值 为 真 (TRUE), 则 说 明 此 数 

据 是 缺失 数据 ， 如 果 返 回 值 为 假 (FALSE), 则 此 数据 不 是 缺失 数据 ， 如 

> ind <- is.na(z); ind 

[1] FALSE FALSE FALSE TRUE 
如 果 需 要 将 缺失 数据 改 为 0, 则 用 如 下 命令 

> z[lis.na(z)] <- 0; z 

[1] 1 230 
类 似 的 函数 还 有 SaaagO( 检 测 数据 是 否 不 确定 ，TRUE 为 不 确定 ,FALSE 为 确定 )， 
isfiniteGO (检测 数据 是 否 有 限 ，TRUE 为 有 限 ，FALSE 为 无 穷 ), Es infiniteO) 
(检测 数据 是 否 为 无 穷 ， TRUE 为 无 穷 ， FALSE 为 有 限 ). 例如 ， 

> x<-c(0/1, 0/0, 1/0, NA); x 

[1] 0 NaN Inf NA 

> is.nan(x) 

[1] FALSE TRUE FALSE FALSE 

> is.finite(x) 

[1] TRUE FALSE FALSE FALSE 

> is.infinite(x) 

[1] FALSE FALSE TRUE FALSE 

> is.na(lx) 

[1] FALSE TRUE FALSE TRUE 
在 x 的 四 个 分 量 中 ，0/1 为 0, 只 有 在 is.finite 的 检测 下 是 真 ， 其 余 均 为 假 . 
0/0 为 不 确定 ， 但 对 函数 is.nan 和 is.na 的 检测 下 均 为 真 ， 这 是 因为 不 确定 数 
据 也 认为 是 缺失 数据 . 1/0 为 无 穷 ， 因 此 只 在 is.infinite 检测 下 为 真 ， NA 
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为 缺失 数据 ， 只 有 在 is .na 检测 下 为 真 ， 因 为 缺失 数据 并 不 是 不 确定 数据 ， 所 以 
在 is.nan 检测 下 仍 为 假 . 

如 果 对 不 确定 数据 、 缺 失 数据 赋值 ， 可 以 采用 对 缺失 数据 赋值 的 方法 为 它们 
赋值 . 
2.2.5 ”字符 型 向 量 


回 量 元 素 可 以 取 字 符 串 值 . 例如 ， 








> y<-c ("er", "sdf", "eir", "jk", "dim") 
或 

> cl("er", "sdf", "eir", "jk", "dim") -> y 
则 得 到 

> 了 


国生 
可 用 Baste 函数 用 来 把 它 的 自 变 量 连 成 一 个 字符 串 ， 中 间 用 空格 分 开 ， 例 如 ， 
> paste(My' Job) 
[1] "My Job" 
连接 的 自 变 量 可 以 是 向 量 , 这 时 各 对 应 元 素 连接 起 来 , 长度 不 相同 时 较 短 的 向 量 
被 重复 使 用 . 自 变 量 可 以 是 数值 向 量 ， 连 接 时 自动 转换 成 适当 的 字符 串 表 示 , 例 
如 ， 



































> labs<-paste("X", 1:6, sep = ""); labs 

[1] "Xi" "X2" "X3" "X4" "X5" "X6" 
分 隔 用 的 字符 可 以 用 BeB 参数 指定 ， 例 如 下 例 产 生 阁 干 个 文件 名 : 
> paste('"result.", 1:4, sep="") 

[1] "result.1" "result.2" "result.3" "result.4" 

关于 paste 函数 ， 还 有 以 下 几 种 用 法 . 

> paste(1:10) # same as as.character(1:10) 

[A wh 2 WB a WB MO MT M8 Vo VION 

> paste("Today is", date()) 

[1] "Today is Tue Sep 13 16:16:29 2005" 

> paste(c(’a’, ’b’), collapse=’.’) 

[1] "a.b" 
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2.2.6 ”复数 向 量 


R 支持 复数 运算 . 复数 常量 只 要 用 通常 的 格式 , 如 3.5+2.1i. complex 模式 
的 向 量 为 复数 元 素 的 向 量 ， 可 以 用 complex() 函数 生成 复数 向 量 ， 如 
> x <- seq(-pi, pi, by=pi/10) 








y <- sin(x) 
Zz <- complex(re=x, im=y) 
plot (2z) 


lines((z) 








> 
> 
> 
> 
其 中 第 一 行 是 给 出 向 量 x 的 值 ， 第 二 行 是 计算 向 量 y 的 值 ， 第 三 行 是 构造 复数 





0.5 
| 


Im(z) 
0.0 








-1.0 





T T I I T T lL 
-3 —2 —1 0 1 2 3 


Re(z) 


图 2.17: 复数 >=z+isin(z) 的 散 点 图 和 折线 图 











向 量 ， 其 中 x 为 实 部 ， y 为 虚 部 ， 第 四 行 是 绘 出 复数 向 量 z 的 散 点 图 ， 第 五 行 
是 用 实 线 连接 这 些 散 点 . 图 2.17 给 出 了 相应 的 图 形 . 

对 于 复数 运算 ， Re() 是 计算 复数 的 实 部 ， Im() 是 计算 计算 复数 的 虚 部 ， 
Mod() 是 计算 复数 的 模 ， Arg() 是 计算 复数 的 幅 角 . 


2.2.7 ”向 量 下 标 运算 


R 软件 提供 了 十 分 灵活 的 访问 向 量 元 素 和 癌 量 子 集 的 功能 ， 茶 一 个 元 素 只 
要 用 区 的 格式 访问 ， 其 中 x 是 一 个 向 量 名 ， 或 一 个 取向 量 值 的 表达 式 ， 如 
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> x <- c(1,4,7) 
> x[2] 
[1] 4 
> (c(1, 3, 5) + 5) [2] 
[1] 8 
可 以 单独 改变 一 个 元 素 的 值 ， 如 
> x[2] <- 125 
> x 
[1] 1 125 到 
> x[c(1,3)] <- c(144, 169) 
>xXxX 


[1] 144 125 169 
1. 还 辑 向 量 


v 为 和 x 等 长 的 逻辑 向 量 ，x[v] 表示 取出 所 有 v 为 真 值 的 元 素 ， 如 
> X <- c(1,4,7) 
>x<5 
[1] TRUE TRUE FALSE 
> x[x<5] 
本 


可 以 将 向 量 中 缺失 数据 赋 为 0, 如 
> Z <- c(-1, 1:3, NA) 


> z[lis.na(z)] <- 0 





>z 
[1] -1 1 2 3 0 
也 可 以 将 向 量 中 非 缺 失 数据 赋 给 另 一 个 向 量 ， 如 
>z <- c(-1，1:3，NA) 
> y <- z[!is.na(z)] 
>Jy 
[1] -1 1 2 3 
或 作 相 应 的 运算 ， 


2.2 数字 、 字 符 与 向 量 


> (z+1)[(!is.na(z)) & 2z>0] -> x 
> XxX 


[1] 2 3 4 


改变 部 分 元 素 值 的 技术 与 逻辑 值 下 标 方 法 结合 可 以 定义 疝 量 的 分 段 函 数 , 例 


如 ， 要 定义 
1 一 Z，2<0 
Y= ， 
1 十 Z，2Z>0 


可 以 用 


> y <- numeric(length(x)) 


> y[x<0] <- 1 - x[x<0] 
> y[x>=0] <- 1 + x[x>=0] 


来 表示 ， 其 中 Gaaeric 函数 是 产生 数值 型 向 量 . 
2. 下 标的 正 整 数 运算 


v 为 一 个 向 量 ， 下 标 取 值 在 1 到 length(v) 之 间 ， 取 值 允 许 重 复 ， 例 如 ， 
> V<- 10:20 
> v[c(1,3,5,9)] 
[1] 10 12 14 18 
> v[1:5] 
[1] 10 11 12 13 14 
> Vv[c(1,2,3,2,1)] 
[1] 10 11 12 11 10 
> c(C"a',"b","c") [rep(c(2,1,3), times=3)] 


[1] up" 下 af 有 LE rp" ye We ne" al ed 





3. 下 标的 负 整 数 运算 


v 为 一 个 向 量 ， 下 标 取 值 在 一 lenght (x) 到 一 1 之 间 ， 如 
> v[-(1:5)] 


二 15 16 17 18 19 20 


4. 取 字 符 型 值 的 下 标 向 量 


75 
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在 定义 向 量 时 可 以 给 元 素 加 上 和 名字 ， 如 
> ages <- c(Li=33, Zhang=29, Liu=18) 
> ages 
Li Zhang Liu 
33 29 18 
这 样 定义 的 向 量 可 以 用 通常 的 办 法 访问 , 男 外 还 可 以 用 元 素 名 字 来 访问 元 素 或 元 
素 子 集 ， 例 如 : 
> ages["Zhang"] 








Zhang 
29 


向 量 元 素 名 可 以 后 加 ， 如 
> fruit <- c(5, 10, 1, 20) 
> names(fruit) <- c("orange", "banana", "apple", "peach") 
> fruit 
orange banana apple peach 


5 10 1 20 


2.3 ”对 象 和 它 的 模式 与 属性 


R 是 一 种 基于 对 象 的 语言 ， R 的 对 象 包含 了 若干 个 元 素 作 为 其 数据 ， 另 外 
还 可 以 有 一 些 特殊 数据 称 为 属性 (attribute), 并 规定 了 一 些 特定 操作 (如 打印 、 
绘图 ). 比如 ， 一 个 向 量 是 一 个 对 象 ， 一 个 图 形 也 是 一 个 对 象 .、 R 对 象 分 为 单纯 
(atomic) 对 象 和 复合 (recursive) 对 象 两 种 ， 单 纯 对 象 的 所 有 元 素 都 是 同一 种 基 
本 类 型 (如 数值 、 字 符 串 ), 元 素 不 再 是 对 象 ， 复 合 对 象 的 元 素 可 以 是 不 同类 型 的 
对 象 ， 每 一 个 元 素 是 一 个 对 象 . 





2.3.1 固有 属性 : mode 和 length 


R 对象 都 有 两 个 基本 的 属性 : nn 比 
如 向 量 的 类 型 为 logical( 逻 辑 型 ) 、 numeric( 数 值 型 ) 、 complex( 复 数 型 ) 、 
character( 字 符 型 ), 比如 

> mode(c(1,3,5)>5) 
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[1] "logical" 
R 对 象 有 一 种 特别 的 null( 空 值 型 ) 型 ， 只 有 一 个 特殊 的 NULL 值 为 这 种 类 
型 ， 表 示 没 有 值 (不 同 于 NA, NA 是 一 种 特殊 值 ， 而 NULL 根本 没有 对 象 值 ). 
要 判断 某 对 象 是 否 某 类 型 ， 有 许多 个 类 似 于 is.numeric() 的 函数 可 以 完 
成 ._ is.numeric(x) 用 来 检验 对 象 x 是 否 为 数值 型 ， 它 返回 一 个 逻辑 型 结果 . 
is.character() 可 以 检验 对 象 是 否 为 字符 型 ， 等 等 ， 如 


> Z <- 0:9 





> is.numeric(z) 
[1] TRUE 
> is.character(Z) 
[1] FALSE 
长 度 属性 表示 R 对 象 元 素 的 个 数 ， 比 如 
> length (2:4) 
[1] 3 
> length(z) 
[1] 9 
注意 向 量 人 允许 长 度 为 0, 如 数值 型 向 量 长 度 为 零 表示 为 numeric() 或 numeric(0)， 
字符 型 向 量 长 度 为 零 表示 为 character() 或 character(0). 
R 可 以 强制 进行 类 型 转换 ， 例 如 
> digits <- as.character(z); digits 
WS 











> d <- as.numeric(digits); d 

[1] 0123456789 
第 一 个 赋值 把 数值 型 的 z 转换 为 字符 型 的 digits. 第 二 个 赋值 把 digits 又 转 
换 为 了 数值 型 的 d, 这 时 d 和 z 是 一 样 的 了 . R 还 有 许多 这 样 的 以 as. 开头 的 
类 型 转换 函数 ， 


2.3.2 ”修改 对 象 的 长 度 


对 象 可 以 取 0 长 度 或 正 整数 为 长 度 . R 允许 对 超出 对 象 长 度 的 下 标 赋值 ， 
这 时 对 象 长 度 上 自动 伸 长 以 包括 此 下 标 ， 未 赋值 的 元 素 取 缺 失 值 (NA), 例如 
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> x <- numeric() 
> x[3] <- 17 
>x 
[1] NA NA 17 
要 增加 对 象 的 长 度 只 需 作 赋值 运算 就 可 以 了 ， 如 
> x <= 1:3 
> x <- 1:4 
[1] 1 23 4 
要 缩短 对 象 的 长 度 又 雯 么 办 呢 ? 只 要 给 它 赋 一 个 长 度 短 的 子 集 就 可 以 了 ， 如 
> x <- x[1:2] 





>x 

[1] 1 2 

> alpha <- 1:10 

> alpha <- alpha[2 * 1:5] 

> alpha 

[1] 2 4 6 8 10 
或 给 对 象 的 长 度 赋值 ， 如 

> length(alpha) <- 3 

> alpha 

[1] 2 4 6 


2.3.3 attributes() 和 attr() 函数 


attributes(object) 返回 对 象 object 的 各 特殊 属性 组 成 的 列表 ， 不 包括 
固有 属性 mode 和 length. 例如 ， 
> x <- cl(apple=2.5,orange=2.1); x 
apple orange 
2.5 2 
> attributes (x) 
$names 


[1] "apple" "orange 1 
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可 以 用 attr(object, name) 的 形式 存 取 对 象 object 的 名 为 nianie 的 属性 ， 例 
如 ， 
> attr(x,'"names'") 
[1] "apple" "orange" 
也 可 以 把 attr() 函数 写作 赋值 的 左边 以 改变 属性 值 或 定义 新 的 属性 ， 例 如 ， 
> attr(x,'"names") <- c("apple",'"grapes'"); x 
apple grapes 
2.5 2.1 
> attr(x, "type") <- "fruit"; x 
apple grapes 
2.5 2..1 
attr(,'"type'") 
[1] "fruit" 
> attributes (x) 
$names 


[1] "apple" "grapes" 


$type 
[二 


2.3.4 ”对 象 的 class 属性 


在 RR 中 可 以 用 特殊 的 class 属性 来 支持 面向 对 象 的 编程 风格 , 对 象 的 class 
属性 用 来 区 分 对 象 的 类 , 可 以 写 出 通用 函数 根据 对 和 象 类 的 不 同 进行 不 同 的 操作 ， 
比如 ，print() 函数 对 于 向 量 和 和 盾 阵 的 显示 方法 就 不 同 ，plot () 函数 对 不 同类 
的 自 变量 作 不 同 的 图 形 . 

为 了 暂时 去 掉 一 个 有 类 的 对 象 的 class 属性 ， 可 以 使 用 unclass (object) 








2.4 因子 


统计 中 的 变量 有 几 种 重要 类 别 : 区 间 变 量 、 名 义 变量 和 有 序 变量 . 区 间 变 量 
取 连 续 的 数值 ， 可 以 进行 求 和 、 平 均值 等 运算 ,名 义 变 量 和 有 序 变 量 取 离散 值 ， 
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可 以 用 数值 代表 ， 也 可 以 是 字符 型 值 ， 其 具体 数值 没有 加 减 乘除 的 意义 ， 不 能 用 
来 计算 ， 而 只 能 用 来 分 类 或 计数 ， 名义 变量 如 性 别 、 省 份 、 职 业 ， 有 序 变 量 如 班 
级 、 名 次 . 





2.4.1 ”factor() 函数 


因为 离散 变量 有 各 种 不 同 表示 方法 , 在 R 软件 中 , 为 了 统一 起 见 , 使 用 因子 
(factor) 来 表示 这 种 类 型 的 变量 ， 例 如， 知道 5 位 学 生 的 性 别 ， 用 因子 变量 表示 
> sex <- c("M" ， HF" y "IM" ， MY uF") 











> sexf <- factor(sex); sexf 
[1] MF MMF 
Levels: FM 


函数 factor() 用 来 把 一 个 向 量 编 码 成 为 一 个 因子 .其 一 般 形 式 为 : 








其 中 x 是 向 量 ， levels 是 水 平 ， 可 以 自行 指定 各 离散 取 值 ， 不 指定 时 由 x 的 不 
同 值 来 求 得 . labels 可 以 用 来 指定 各 水 平 的 标签 ,不 指定 时 用 各 离散 取 值 的 对 
应 字符 串 ， exclude 参数 用 来 指定 要 转换 为 缺失 值 (NA) 的 元 素 值 集合 ， 如 果 
指定 了 levels, 则 因子 的 第 i 个 元 素 当 它 等 于 水 平 中 第 j 个 时 元 素 值 取 "j", 如 
果 它 的 值 没有 出 现在 levels 中 ， 则 对 应 因子 元 素 值 取 NA. ordered 取 值 为 真 
(TRUE) 时 ,表示 因子 水 平 是 有 次 序 的 ( 按 编 码 次 序 ); 否则 ( 缺 省 值 ) 是 无 次 序 的 . 

可 以 用 is.factor() 检验 对 象 是 否 因子 ， 用 as .factor() 把 一 个 向 量 转换 
成 一 个 因子 . 

用 函数 lewelgGO 可 以 得 到 因子 的 水 平 ， 如 

> sex.level <- levels(sexf); sex.level 


[1] uF" MY 
对 于 因子 向 量 ， 可 用 函数 table() 来 统计 各 类 数据 的 频数 . 例如 ， 


> sex.tab <- table(sexf); sex.tab 











sexf 
F M 
2.053 
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表示 男性 3 人 ,女性 2 人 . table() 的 结果 是 一 个 带 元 素 名 的 向 量 ， 元 素 名 为 
因子 水 平 , 元 素 值 为 该 水 平 的 出 现 频 数 . 关于 table 的 使 用 方法 ,在 后 面 还 会 讲 
到 |. 


2.4.2 tapply() 函数 
我 们 除了 知道 5 位 学 生 的 性 别 ， 还 知道 5 位 学 生 的 身高 ， 分 组 求 身 高 的 平 
均值 . 


> height <- c(174, 165, 180, 171, 160) 
> tapply(height, sex, mean) 


F M 
162.5 175.0 
函数 6BB 雪 0 的 一 般 合作 格式 为 
tapply (X, ‘INDEX, FUN = NULL, ..., simplify = TRUE) 


其 中 X 是 一 对 象 ， 通 常 是 一 向 量 ， INDEX 是 与 X 有 同样 长 度 的 因子 ， FUN 是 需 
要 计算 的 函数 ， simplify 是 逻辑 变量 ， 取 为 TRUE( 缺 省 ) 和 FALSE. 


2.4.3 ”gl() 函数 





本国 函数 可 以 方便 地 产生 因子 ， 其 一 般 用 法 是 
gl(n, k, length = n*k, labels = 1:n, ordered = FALSE) 
其 中 为 水 平 数 ，k 为 重复 的 次 数 ， length 为 结果 的 长 度 ， labels 是 一 个 了 


维 向 量 ,表示 因子 水 平 ，ordered 是 逻辑 变量 ， 表 示 是 否 为 有 序 因 子 ， 缺 省 值 为 
FALSE. 如 














> gl1(3,5) 

[1] 111112222233333 
Levels: 123 

> g1(3,1,15) 

[1] 123123123123123 
Levels: 123 
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2.5 “多维 数组 和 和 拢 阵 
2.5.1 ”生成 数组 或 矩阵 
数组 (aiay) 可 以 看 成 是 带 多 个 下 标的 类 型 相同 的 元 素 的 集合 ， 常 用 的 是 数 
值 型 的 数组 如 矩阵， 也 可 以 有 其 它 类 型 (如 字符 型 、 逻 辑 型 、 复 数 型 ). R 可 以 很 
容易 地 生成 和 处 理 数组 ， 特 别 是 矩阵 (二 维 数 组 ). 
数组 有 一 个 特征 属性 叫做 维 数 向 量 (qi 对 属性 ), 维 数 向 量 是 一 个 元 素 取 正 整 
数值 的 向 量 ， 其 长 度 是 数组 的 维 数 ， 比 如 维 数 向 量 有 两 个 元 素 时 数组 为 二 维 数 组 
(矩阵 ). 维 数 向 量 的 每 一 个 元 素 指定 了 该 下 标的 上 界 ， 下 标的 下 界 总 为 1. 
1. 将 向 量 定义 成 数组 
向 量 只 有 定义 了 维 数 向 量 (dim 属性 ) 后 才能 被 看 作 是 数组 .比如 ; 
> z<-1:12 
> dim(z)<-c(3,4) 








>Zz 

[,1] [,2] [,3] [,4] 
[1,] 1 4 7 10 
[2,] 2 5 8 11 


[3,] 6 12 
注意 : oe ee 例如 ， 


> dim(z)<-12 
>z 
[1] 1 2 3 4 5 6 7 8 9101112 
2. 用 array() 函数 构造 多 维 数组 
R 软件 可 以 用 rray() 函数 直接 构造 数组 ， 其 构造 形式 为 
array(data = NA, dim = length(data), dimnames = NULL) 
其 中 data 是 一 个 向 量 数据 ， dim 是 数组 各 维 的 长 度 ， 缺 省 时 为 原 向 量 的 长 度 . 
dimnames 是 数组 维 的 名 字 ， 缺 省 时 为 空 ， 如 
> X <- array(1:20,dim=c(4,5)) 
产生 一 个 4x5 的 二 维 数组 (矩阵 ), 即 
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> 又 


[,1] [2] [,3] [,4] [,5] 
[1,] 1 5 9 13 17 


[2,] 2 6 10 14 18 

[3,] 3 7 11 15 19 

[4,] 4 8 12 16 20 
另 一 种 方式 为 


它 定 义 了 一 个 3x4x2 的 三 维 数组 ， 其 元 素 均 为 0. 这 种 方法 常用 来 对 数组 作 初 
始 化 . 


3. 用 matrix() 函数 构造 矩阵 

函数 画 斌 这 信 是 构造 矩阵 (二 维 数组 ) 的 函数 ， 其 构造 形式 为 

matrix(data=NA, nrow=1, ncol=1, byrow=FALSE, dimnames=NULL) 
其 中 data 是 一 个 向 量 数据 ， nrow 是 矩阵 的 行 数 ， ncol 是 害 阵 的 列 数 . 妆 
byrow=TRUE 时 ， 生 成 矩阵 的 数据 按 行 放置 ， 缺 省 时 相当 于 byrow=FALSE, 数据 按 
列 放置 ， dimnames 是 数组 维 的 名 字 ， 缺 省 时 为 空 ， 

如 构造 一 个 3 x 5 阶 的 矩阵 








> A<-matrix(1:15, nrow=3,ncol=5,byrow=TRUE) 
> 人 


[,1 [,2] [3] [4] [,5] 

[1,] 1 2 3 4 5 

[2,] 6 7 8 9 10 

[3,] 11 12 13 14 15 

注意 ， 下 面 两 种 格式 与 前 面 的 格式 是 等 价 的 . 
> A<-matrix(1:15, nrow=3,byrow=TRUE) 
> A<-matrix(1:15, ncol=5,byrow=TRUE) 
如 果 将 语句 中 的 byrow=TRUE 去 掉 ， 则 数据 按 列 放置 . 


2.5.2 ”数组 下 标 
数组 与 向 量 一 样 ， 可 以 对 数组 中 的 某 些 元 素 进行 访问 ， 或 进行 运算 . 
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1. 数组 下 标 
要 访问 数组 的 某 个 元 素 ,只 要 写 出 数组 名 和 方 括号 内 的 用 逗号 分 开 的 下 标 即 
可 ， 如 a[2，1，2]. 如 
> a <- 1:24 
> dim(a) <- c(2,3,4) 
Ed 
[1] 8 
更 进一步 还 可 以 在 每 一 个 下 标 位 置 写 一 个 下 标 向 量 , 表示 这 一 维 取出 所 有 指 
定 下 标的 元 素 ， 如 a[1，2:3，2:3] 取出 所 有 第 一 下 标 为 1, 第 二 下 标 为 2 或 3， 
第 三 下 标 为 2 或 3 的 元 素 ， 如 
> a[1，2:3，2:3] 
”TC 
[1,] 9 15 
[2,] 11 17 
注意 ， 因 为 第 一 维 只 有 一 个 下 标 ， 所 以 退化 了 ， 得 到 的 是 一 个 维 数 向 量 为 2 x 2 
的 数组 . 
另外 ， 如 果 略 写 某 一 维 的 下 标 ， 则 表示 该 维 全 选 ， 例如 ， 
> a[1，，] 
[,1] [,2] [,3] [,4] 
[1,] 1 7 13 19 
[2,] 3 9 15 21 
L3,] 5 11 17 23 
取出 所 有 第 一 下 标 为 1 的 元 素 ， 得 到 一 个 形状 为 3 x 4 的 数组 . 
>a[l ，2，] 
[,1] [,2] [,3] [,4] 
[1,] 3 9 15 21 
[2,] 4 10 16 22 


取出 所 有 第 二 下 标 为 2 的 元 素 得 到 一 个 2 x 4 的 数组 . 
> a[i1,1, ] 
[1] 1 7 13 19 
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则 只 能 得 到 一 个 长 度 为 4 的 向 量 ， 不 再 是 数组 . a[ ，，] 或 a[] 都 表示 整个 
数组 ， 比 如 
> a [<-0 
可 以 在 不 改变 数组 维 数 的 条 件 下 把 元 素 都 赋 成 0. 


还 有 一 种 特殊 下 标 办 法 是 对 于 数组 只 用 一 个 下 标 向 量 (是 向 量 ， 不 是 数组 )， 
比如 























> a[3:10] 
[1] 3 4 5 6 7 8 910 


这 时 忽略 数组 的 维 数 信息 把 表达 式 看 作 是 对 数组 的 数据 向 量 取 子 集 . 
2. 不 规则 的 数组 下 标 


在 R 语言 中 , 其 至 可 以 把 数组 中 的 任意 位 置 的 元 素 作 为 数组 访问 , 其 方法 是 
用 一 个 二 维 数组 作为 数组 的 下 标 ， 二 维 数组 的 每 一 行 是 一 个 元 素 的 下 标 ， 列 数 为 
数组 的 维 数 . 例如 , 要 把 上 面 的 形状 为 2x3x4 的 数组 a 的 第 [1,1,1], [2,2,3]， 
[1,3,4]，[2,1,4] 号 共 四 个 元 素 作为 一 个 整体 访问 ， 先 定义 一 个 包含 这 些 下 标 
作为 行 的 二 维 数组 : 


> b <- matrix(c(1,1,1,2,2,3,1,3,4,2,1,4), ncol=3, byrow=T) 





> b 

[,1] [,2] [,3] 
[1,] 1 1 1 
[2,] 2 2 3 
[3,] 1 3 4 
[4,] 2 1 4 
> a[b] 


[1] 1 16 23 20 
注意 取出 的 是 一 个 向 量 . 我 们 还 可 以 对 这 几 个 元 素 赋 值 ， 如 : 
> a[b] <- c(101,102,103,104) 
或 
> a[lb] <- 0 
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2.5.3 ”数组 的 四 则 运算 


可 以 对 数组 之 间 进 行 四 则 运算 (+ 、 一 、* 、/), 这 时 进行 的 是 数组 对 应 元 
素 的 四 则 运算 ， 参 加 运算 的 数组 一 般 应 该 是 相同 形状 的 (dinm 属性 完全 相同 ). 例 
如 ， 
> A <- matrix(1:6, nrow=2, byrow=T); A 
[,1] [,2] [,3] 
[1,] 1 2 3 
[2,] 4 5 6 
> B <- matrix(1:6, nrow=2); B 
[,1] [,2] [,3] 
[1,] 1 3 5 
[2,] 2 4 6 
> C <- matrix(c(1,2,2,3,3,4), nrow=2); C 
[,1] [,2] [,3] 
[1,] 1 2 3 
[2,] 2 3 4 
> D <- 2*C+A/B; D 
[,1] [,2] [,3] 
[1,] 3 4.666667 6.6 
[2,] 6 7.250000 9.0 
从 这 个 例子 可 以 看 到 ,数组 的 加 、 减 法 运算 和 数 乘 运算 满足 原 矩 阵 运 算 的 性 
质 ， 但 数组 的 乘 、 除 法 运算 实际 上 是 数组 中 对 应 位 置 的 元 素 作 运算 . 
形状 不 一 致 的 向 量 (或 数组 ) 也 可 以 进行 四 则 运算 ,一般 的 规则 是 将 向 量 (或 
数组 ) 中 的 数据 与 对 应 向 量 (或 数组 ) 中 的 数据 进行 运算 ， 把 短 向 量 (或 数组 ) 的 
数据 循环 使 用 ， 从 而 可 以 与 长 向 量 (或 数组 ) 数据 进行 匹配 ， 并 尽 可 能 保留 共同 
的 数组 属性 ， 例如， 
> xl <- c(100,200) 
> x2 <- 1:6 
> X1T+X2 
[1] 101 202 103 204 105 206 


> x3 <- matrix(1:6, nrow=3) 
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> xl+x3 

[,1] [,2] 
[1,] 101 204 
[2,] 202 105 
[3,] 103 206 


可 以 看 到 ， 当 向 量 与 数组 共同 运算 时 ， 向 量 按 列 匹配 . 当 两 个 数组 不 匹配 时 ， 





会 提出 警告 .如 
> X2 <- 1:5 
> X1L+X2 
[1] 101 202 103 204 105 
警告 信息 : 


长 的 目标 对 象 长 度 不 是 短 的 目标 对 象 长 度 的 整 倍数 in: xl + x2 
2.5.4 ”矩阵 的 运算 
这 里 简单 地 介绍 R 软件 中 矩阵 的 基本 运算 . 
1. 转 置 运算 
对 于 算 阵 4, 函数 t(4) 表示 年 降 加 的 转 首 ， 即 区 人 如 


> A<-matrix(1:6,nrow=2); A 
[,1] [,2] [,3] 

[1,] 1 3 5 

[2,] 2 4 6 

> t(A) 
[,1] [,2] 

[1,] 1 2 

[2,] 3 4 

[3,] 5 6 


2. 求 方 阵 的 行列 式 
函数 datO 是 求 方 阵 行列 式 的 值 ， 如 


> det(matrix(1:4, ncol=2)) 
[1] -2 
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3. 向 量 的 内 积 


对 于 nn 维 向 量 x, 可 以 看 成 n x 1 阶 怎 阵 或 1 xm 阶 窍 阵 . 若 z 与 y 是 相同 
维 数 的 向 量 ， 则 只. 例如， 


> x <- 1:5; y <- 2*1:5 


> x h*% 了 
[,1] 
[1,] 110 





函数 ICT088prod() 是 内 积 运算 函数 (表示 交叉 乘积 ), crossprod(x,y) 计算 
向 量 z 与 y 的 内 积 ， 即 *'t(x) %*% y”. crossprod(x) 表 示 z 与 x 的 内 积 , 即 zj2. 

类 似 地 ， Tcrossprodlx,y】 表示 :x %*%t《y)”'， 即 x 与 y 的 外 积 , 也 称 为 又 
趴 。 tcrossprod(x) 表示 2 与 zx 作 外 积 . 


4. 向 量 的 外 积 (又 积 ) 


设 z,y 是 nn 维 向 量 ， 则 x %o% y 表 示 z 与 y 作 外 积 . 例如 ， 
> x <- 1:5; y <- 2*1:5 
> x ho% y 
[,1] [,2] [,3] [,4] [,5] 
[1,] 2 4 6 8 10 
[2,] 4 8 12 16 20 
[3,] 6 12 18 24 30 
[4,] 8 16 24 32 40 
[5,] 10 20 30 40 50 
函数 Gutezg 是 外 积 运 算 函 数 ， outer(x,y) 计算 向 量 x 与 y 的 外 积 ， 它 
等 价 于 x %o% y. 
函数 outer () 的 一 般 调 用 格式 为 


outer(X, Y, fun = "*", ...) 


其 中 X,Y 矩阵 (或 向 量 )，fun 是 作 外 积 运算 函数 ， 缺 省 值 为 乘法 运算 ， 函 数 
outer() 在 绘制 三 维 曲面 时 非常 有 用 ， 它 可 生成 一 个 X 和 Y 的 网 格 .关于 它 在 
绘制 三 维 曲面 的 用 法 将 在 第 三 章 3.3.1 节 中 讲 到 . 


5. 矩阵 的 乘法 
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如 果 和 矩阵 4 和 B 具有 相同 的 维 数 ， 则 A * B 表示 和 矩阵 中 对 应 的 元 素 的 乘 
吕 ， A % * % B 表示 通常 意义 下 的 两 个 矩阵 的 乘积 (当然 要 求 矩 阵 4 的 列 数 等 
于 和 矩阵 B 的 行 数 ). 如 
> A <- array(1:9,dim=(c(3,3))) 
> B <- array(9:1,dim=(c(3,3))) 
>C<-A*B;C 
[,1] [,2] [,3] 
[1,] 9 24 21 
[2,] 16 25 16 
[3,] 21 24 9 
>D <- A *% B; D 
[,1] [,2] [,3] 
[1,] 90 54 18 
[2,] 114 69 24 
[3,] 138 84 30 
由 乘法 的 运算 规则 可 以 看 出 ， x %* % A % * % x 表示 的 是 二 次 型 . 
函数 crossprod(A,B) 表示 的 是 t(A) % * % B, 函数 tcrossprod(A,B) 表 
示 的 是 A % * % t(B). 
6. 生成 对 角 阵 和 和 矩 阵 取 对 角 运算 
函数 diag) 依赖 于 它 的 变量 ， 当 v 是 一 个 向 量 时 ， diag(v) 表示 以 v 的 
元 素 为 对 角 线 元 素 的 对 角 阵 . 当 是 一 个 矩阵 时 ， 则 diag (GO 表示 的 是 取 M 对 
角 线 上 的 元 素 的 向 量 .， 如 
> v<-c(1,4,5) 
> diag(v) 
[,1] [,2] [,3] 
[1,] 1 0 0 
[2,] 0 4 0 
[3 0 0 5 
> M<-array(1:9,dim=c (3,3)) 
> diag(M) 
[1] 1 5 9 
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7. 解 线 性 方程 组 和 求 矩 阵 的 逆 和 矩阵 


耕 求 解 线性 方程 组 Ax = b, 其 命令 形式 为 B61VY6(A,5)， 求 惩 阵 4 的 逆 ， 其 
命令 形式 为 B61V6(A) 设 和 矩阵 


1 2 3 1 
A=|45 6 |,， b=|1 
7 8 10 1 


则 解 方程 组 4z = 2b 的 解 x 和 求 矩 阵 4 的 道 矩 阵 B 的 命令 如 下 
> A <- t(array(c(1:8, 10),dim=c(3,3))) 
>b <- c(i1,1,1) 
> x <- solve(A,b); x 
[1] -1.000000e+00 1.000000e+00 -4.728549e-16 
> B <- solve(A); B 
[,1] [,2] [,3] 
[1,] -0.6666667 -1.333333 1 
[2,] -0.6666667 3.666667 -2 
[3,] 1.0000000 -2.000000 1 


8. 求 矩 阵 的 特征 值 与 特征 向 量 
函数 Big6en(Szm) 是 求 对 称 怎 阵 Sm 的 特征 值 与 特征 向 量 ， 其 命令 形式 为 
> ev <- eigen(Sm) 


则 ev 存放 痢 对 称 窍 阵 Sm 特征 值 和 特征 向 量 ， 是 由 列表 形式 给 出 的 ( 有关 列表 
的 概念 见 2.6 节 )， 其 中 ev$values 是 Sm 的 特征 值 构成 的 向 量 ，ev$vectors 是 
Sm 的 特征 向 量 构成 的 矩阵 ， 如 


> Sm<-crossprod(A,A) 








> ev<-eigen(Sm); ev 
$values 
[1] 303.19533618 0.76590739 0.03875643 
$vectors 

[,1] [,2] [,3] 
[1,] -0.4646675 0.833286355 0.2995295 
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[2,] -0.5537546 -0.009499485 -0.8326258 
[3,] -0.6909703 -0.552759994 0.4658502 


9. 和 矩阵 的 奇异 值 分 解 


函数 a8 是 对 矩阵 4 作 奇 异 值 分 解 ， 即 4 = UDV", 其 中 U,V 是 正 
交 阵 ， D 为 对 角 阵 ， 也 就 是 矩阵 4 的 奇异 值 ， sva(4) 的 返回 值 也 是 列表 ， 
svd(A)$d 表示 和 矩阵 4 的 奇异 值 ， 即 抢 阵 D 的 对 角 线 上 的 元 素 . svd(A)$u 对 
应 的 是 正 交 阵 UV, svd(A)$v 对 应 的 是 正 交 阵 V. 例如 ， 

> svdA<-svd(A); svdA 
$d 
[1] 17.4125052 0.8751614 0.1968665 
$u 

[,1] [,2] [,3] 
[1,] -0.2093373 0.96438514 0.1616762 
[2,] -0.5038485 0.03532145 -0.8630696 
[3,] -0.8380421 -0.26213299 0.4785099 
$v 

[,1] [ ,2] [ ,3] 
[1,] -0.4646675 -0.833286355 0.2995295 
[2,] -0.5537546 0.009499485 -0.8326258 
[3,] -0.6909703 0.552759994 0.4658502 
> attach(svdA) 
> u %*% diag(d) %*% 七 (V) 

[,1] [,2] [,3] 

[1,] 1 2 3 
[2,] 4 5 6 
[3,] 7 8 10 


在 上 面 的 语句 中 ， attach(svdA) 是 说 明 下 面 的 变量 u，v，d 是 附属 于 svdA 
的 ， 关 于 attach() 函数 的 使 用 方法 将 在 2.6.2 节 作 详细 介绍 . 


10. 求 矩 阵 的 行列 式 的 值 
函数 aeEA) 是 求 矩 阵 4 的 行列 式 值 。 如 
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> det (A) 
[1] -3 
11. 最 小 拟 合 与 QR 分 解 
函数 sfiE( 的 返回 值 是 最 小 二 乘 拟 合 的 结果 ， 命 令 
> lsfit.sol <- lsfit(X, y) 
给 出 最 小 二 乘 拟 合 结果 ， 其 中 y 是 观测 向 量 ， XX 是 设计 矩阵， 例如 


0.0 0.2 0.4 0.6 0.8 
0.9 1.9 2.8 3.3 4.2 





作 线 性 最 小 二 乘 拟 合 ， 其 命令 如 下 ; 

> x<-c(0.0, 0.2, 0.4, 0.6，0.8) 

> y<-c(0.9, 1.9, 2.8, 3.3,4.2) 

> lsfit.sol <- lsfit(x, y) 

得 到 的 计算 结果 是 列表 形式 (关于 列表 的 概念 将 在 2.6 节 讨 论 ) 


> lsfit.sol 





$coefficients 
Intercept X 
1.02 4.00 
$residuals 
[1] -0.12 0.08 0.18 -0.12 -0.02 
$intercept 
[1] TRUE 
$qr 
$qt 
[1] -5.85849810 2.52982213 0.23749843 -0.02946714 0.10356728 
$qr 
Intercept X 
[1,] -2.2360680 -0.8944272 
[2,] 0.4472136 0.6324555 
[3,] 0.4472136 -0.1954395 
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[4,] 0.4472136 -0.5116673 
[5,] 0.4472136 -0.8278950 
$qraux 

[1] 1.447214 1.120788 
$rank 

[1] 2 

$pivot 

[1] 1 2 

$tol 

[1] 1e-07 

attr(,'"class'") 


[1] ge" 


其 中 $coefficients 是 拟 合 系数 ，$residuals 是 拟 合 残 差 .其 他 参数 我 们 先 不 
作 解 释 ， 大 家 可 看 在 线 帮助 . 


与 1sfit() 函数 有 和 密切 关系 的 函数 是 135:diag()) 它 给 出 拟 合 的 进一步 的 统 
计 信 息 . 

另 一 个 最 小 二 乘 拟 全 有 密切 关系 的 函数 是 ,QR 分 解 函数 吐 O 和 它 的 同类 
函数 ， 有 如 下 函数 qr() ，qr.coef()，qr.fitted() 和 qr.resid(). 为 了 进 一 
步 理解 这 些 命 令 ， 还 看 上 面 的 例子 

> X<-matrix(c(rep(1,5), x), ncol=2) 
> Xplus <- qr(X); Xplus 
$qr 

[,1] [,2] 
[1,] -2.2360680 -0.8944272 
[2,] 0.4472136 0.6324555 
[3,] 0.4472136 -0.1954395 
[4,] 0.4472136 -0.5116673 
[5,] 0.4472136 -0.8278950 
$rank 
[1] 2 


$qraux 
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[1] 1.447214 1.120788 
$pivot 
[1] 1 2 
attr(,'"class'") 
[1] "qr" 
QR 分 解 函 数 qr() 输入 的 设计 和 矩阵 需要 加 以 1 为 元 素 的 列 ， 其 返回 值 是 列表 ， 
其 中 $qr 矩阵 的 上 三 角 阵 是 QR 分 解 中 得 到 的 R 和 矩阵， 下 三 角 阵 是 QR 分 解 得 
到 的 正 交 阵 Q 的 部 分 信息 ， $qraux 是 Q 的 附加 信息 . 注意， 这 两 个 参数 的 结 
果 与 函数 1sfit() 得 到 的 结果 是 相同 的 . 
可 用 QR 分 解 得 到 的 结果 计算 最 小 二 乘 的 系数 
> b <- qr.coef (Xplus, y); b 
[1] 1.02 4.00 
得 到 的 系数 与 函数 1sfit() 也 是 相同 的 ， 但 为 什么 用 这 种 方法 计算 呢 ? 这 是 因 
为 用 QR 分 解 在 计算 最 小 二 乘 拟 合 时 ， 其 计算 误差 比 一 般 方法 要 小 . 
类 似 地 ， 可 以 通过 QR 分 解 得 到 最 小 二 乘 的 拟 合 值 和 残 差 值 . 
> fit <- qr.fitted(Xplus, y); fit 
[1] 1.02 1.82 2.62 3.42 4.22 
> res <- qr.resid(Xplus, y); res 
[1] -0.12 0.08 0.18 -0.12 -0.02 


2.5.5 ”与 矩阵 (数组 ) 运算 有 关 的 函数 


1. 取 矩 阵 的 维 数 


函数 EW 得 到 算 阵 4 的 维 数 ， 函 数 E05( 旭 得 到 矩阵 4 的 行 数 ， 函 数 
co2(A) 得 到 矩阵 4 的 列 数 ， 如 
> A<-matrix(1:6,nrow=2); A 
[,1] [,2] [,3] 
[1,] 1 3 5 
[2,] 2 4 6 
> dim(A) 
[1] 2 3 
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> nrow(A) 
[1] 2 
> ncol(A) 
[1] 3 


2. 矩阵 的 合并 


函数 KE5inaag) 把 其 自 变 量 横向 拼 成 一 个 大 矩阵 ，E5iamaag 把 其 和 目 变 量 纵向 
拼 成 一 个 大 和 矩阵. cbind() 的 自 变 量 是 矩阵 或 看 作 列 向 量 的 向 量 时 ， 自 变量 的 
高 度 应 该 相等 rbind() 的 上 自 变量 是 矩阵 或 看 作 行 向 量 的 加 量 时 ， 自 变量 的 帘 
度 应 该 相等 ， 如 果 参 与 合并 的 自 变 量 比 其 变量 短 ， 则 循环 补足 后 合并 ， 如 
> xl <- trbind(c(1,2) ，c(3,4)) ;xl 
[,1] [,2] 
[1,] 1 2 
[2,] 3 4 
> x2 <- 10+xl 
> x3 <- cbind(x1, x2); x3 
[,1] [,2] [,3] [,4] 
[1,] 1 2 11 12 
[2,] 3 4 13 14 
> x4 <- rbind(x1, x2); x4 
[,1] [,2] 
[1,] 1 2 
[2,] 3 4 
[3,] 11 12 
[4,] 13 14 
> cbind(1, x1) 
[,1] [,2] [,3] 
[1,] 1 1 2 
[2,] 1 3 4 














3. 和 矩阵 的 拉 直 
设 4 是 一 个 矩阵 ， 则 函数 BS.Vector(A 就 可 以 将 矩阵 转化 为 向 量 ， 如 
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> A<-matrix(1:6,nrow=2); A 
[,1] [,2] [,3] 

[1,] 1 3 5 

[2,] 2 4 6 

> as.vector(A) 


[1] 123456 
4. 数组 的 维 名 字 


数组 可 以 有 一 个 属性 dimnames 保存 各 维 的 各 个 下 标的 名 字 , 缺 省 时 为 NULL. 
如 
> X <- matrix(1:6, ncol=2, 


dimnames=list(c('"one'",'"two'",'"three"), c("First'","Second'")), 


byrow=T); X 
First Second 
one 1 2 
two 3 4 
three 5 6 


也 可 以 先 定 义 矩 阵 X 然后 再 为 dimnames (X) 赋值 ， 例 如 ， 
> X<-matrix(1:6, ncol=2, byrow=T) 
> dimnames(X) <- list( 
c("one", "two", "three'"), c("First", "Second'")) 
对 于 和 矩阵， 还 可 以 使 用 属性 rownames 和 colnames 来 访问 行 名 与 列 名 ， 例 如 ， 
> X<-matrix(1:6, ncol=2, byrow=T) 
> colnames(X) <- c('"First", "Second') 


> rownames(X) <- c('"one", "two'", "three") 
5. 数组 的 广义 转 置 


可 以 用 erm(Ghy Dezi) 函数 把 数组 4 的 各 维 按 perm 中 指定 的 新 次 序 重新 
排列 ， 例 如 ， 

> A<-array(1:24, dim = c(2,3,4)) 

> B<-aperm(A, c(2,3,1)) 
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结果 B 把 4 的 第 2 维 移 到 了 第 1 维 ，A 的 第 3 维 移 到 了 第 2 维 ，A 的 第 1 维 移 
到 了 第 三 维 . 这 时 有 B[i,j,k]=A[j,k,il]. 
对 于 矩阵 A, aperm(A，c(2,1)) 恰好 是 矩阵 转 置 ， 即 t (4). 
6. apply 函数 
对 于 向 量 , 可 以 用 sum 、mean 等 函数 对 其 进行 计算 . 对 于 数组 (矩阵 )， 如 
果 想 对 其 一 维 (或 若干 维 ) 进行 某 种 计算 ， 可 用 缉 B17 函数 ， 其 一 般 形 式 为 
apply (A, MARGIN, FUN, ...) 
其 中 A 为 一 个 数组 ， MARGIN 是 固定 哪些 维 不 变 ， FUN 是 用 来 计算 的 函数 .如 
> A<-matrix(1:6,nrow=2); A 
[,1] [,2] [,3] 
[1,] 1 3 5 
[2,] 2 4 6 
> apply(A,1,sum) 
[1] 9 12 
> apply(A,2,mean) 
[1] 1.5 3.5 5.5 


2.6 ”列表 与 数据 框 
2.6.1 ”列表 (list) 


1. 列表 的 构造 


列表 是 一 种 特别 的 对 象 集合 ， 它 的 元 素 也 由 序号 (下 标 ) 区 分 ， 但 是 各 元 素 

的 类 型 可 以 是 任意 对 象 , 不 同 元 素 不 必 是 同一 类 型 . 元 素 本 身 允 许 是 其 它 复杂 数 
据 类 型 ， 比 如 ， 列 表 的 一 个 元 素 也 允许 是 列表 ， 下 面 是 如 何 构 造 列表 的 例子 . 

> Lst <- list(name="Fred", wife="Mary", no.children=3, 


child.ages=c(4,7,9)) 














> Lst 
$name 


[1] "Fred" 
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$wife 

[1] "Mary" 
$no.children 
[1] 3 
$child.ages 


[1] 4 7 9 
列表 元 素 总 可 以 用 sr 例如 ， 


> Lst[[2]] 
[1] "Mary" 

> LstL[4]] [2] 
[1] 7 


人 。 我 们 每 次 只 能 引用 一 个 元 素 ， 如 ELIE2]] 的 用 法 是 











注意 : “列表 名 [下 标 ]” 或 “列表 名 [下 标 范围 ]” 的 用 法 也 是 合法 的 ， 
但 其 意义 与 用 两 重 括号 的 记 法 完全 不 同 ,两 重 记 号 取出 列表 的 一 个 元 素 ， 结果 与 
该 元 素 类 型 相同 ， 如 果 使 用 一 重 括 导 ， 则 结果 是 列表 的 一 个 子 列表 (结果 类 型 仍 
为 列表 ) 

在 定义 列表 时 如 果 指 定 了 元 素 的 名 字 (如 Lst 中 的 name, wife, no. children, 
child.ages), 则 引用 列表 元 素 还 可 以 用 它 的 名 字 作为 下 标 ， 格 式 为 二 
元 素 名 "]]”, 如 

> Lst[["name"]] 
[1] "Fred" 
> Lst[["child.age"]] 


[1] 479 
另 一 种 格式 是 oe 如 


> Lst$name 
[1] "Fred" 
> Lst$wife 
[1] "Mary" 
> Lst$child.ages 
[1] 4 7 9 
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构造 列表 的 一 般 格式 为 
Lst <- list(name_1=0bject_1, ..., name_m=object_m) 
其 中 Fame 是 列表 元 素 的 名 称 ， 65jsct 是 列表 元 素 的 对 象 ， 
2. 列表 的 修改 
列表 的 元 素 可 以 修改 ， 只 要 把 元 素 引 用 赋值 即 可 ， 如 将 Fred 改 成 John. 
> Lst$name <- "Johny" 
如 果 需 要 增加 一 项 家 庭 收入 ， 夫 妻 的 收入 分 别 是 1980 和 1600, 则 输入 
> Lst$income <- c(1980, 1600) 
如 果 要 删除 列表 的 茶 一 项 ， 则 将 该 项 赋 空 值 (NULL). 
几 个 列表 可 以 用 连接 函数 c() 连接 起 来 , 结果 仍 为 一 个 列表 ， 其 元 素 为 各 自 
变量 的 列表 元 素 ， 如 
>list.ABC <- c(list.A, list.B, list.0C) 


3. 返回 值 为 列表 的 函数 

在 及 中 , 有 许多 函数 的 返回 值 是 列表 , 如 求 特征 值 特征 向 量 的 函数 6@igen(), 
奇异 值 分 解 函 数 BYaO 和 最 小 二 乘 函 数 数 sfit( 等， 这 里 不 再 一 一 讨论 ， 在 
用 到 时 再 讨论 相关 函数 的 意义 . 


2.6.2 ”数据 框 (data.frame) 


数据 框 是 R 的 一 种 数据 结构 ， 它 通常 是 矩阵 形式 的 数据 ， 但 矩阵 各 列 可 以 
是 不 同类 型 的 .数据 框 每 列 是 一 个 变量 ， 每 行 是 一 个 观测 . 

但 是 , 数据 框 有 更 一 般 的 定义 . 它 是 一 种 特殊 的 列表 对 象 , 有 一 个 值 为 “data 
.frame” 的 class 属性 ， 各 列表 成 员 必 须 是 向 量 (数值 型 、 字 符 型 、 逻 辑 型 ) 、 
子 、 数 值 型 矩 、 列 表 ， 或 其 它 数据 框 . 向量、 因子 成 员 为 数据 框 提 供 一 个 变量 ， 
如 果 回 量 非 数 值 型 会 被 强制 转换 为 因子 ， 而 窍 阵 、 列 表 、 数 据 框 这 样 的 成 员 为 新 
数据 框 提供 了 和 其 列 数 、 成 员 数 、 变 量 数 相同 个 数 的 变量 .作为 数据 框 变量 的 向 
量 、 因 子 或 矩阵 必须 具有 相同 的 长 度 ( 行 数 ). 

尽管 如 此 , 一 般 还 是 可 以 把 数据 框 看 作 是 一 种 推广 了 的 矩阵 ， 它 可 以 用 和 矩阵 
形式 显示 ， 可 以 用 对 矩阵 的 下 标 引 用 方法 来 引用 其 元 素 或 子 集 . 


1. 数据 框 的 生成 
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数据 框 可 以 用 aatasframe() 函数 生成 ， 其 用 法 与 1ist() 函数 相同 ， 各 自 
变量 变 成 数据 框 的 成 分 ， 自 变量 可 以 命名 ， 成 为 变量 名 ， 例 如 
> df<-data.frame( 
~ Name=c("Alice", "Becka", "James", "Jeffrey", "John'"), 
Sex=cC"F", "F", "M", "M", "M"), 
Age=c(13，13，12，13，12) ， 
Height=c(56.5, 65.3, 57.3, 62.5, 59.0), 
Weight=c(84.0，98.0，83.0，84.0，99.5) 
); df 
Name Sex Age Height Weight 
1 Alice F 13 56.5 84.0 
2 Becka F 13 65.3 98.0 
3 James M 12 57.3 83.0 
4 Jeffrey M 13 62.5 84.0 
5 John M 12 59.0 99.5 


如 果 一 个 列表 的 各 个 成 分 满足 数据 框 成 分 的 要 求 ， 它 可 以 用 Bs .datasfrane() 
函数 强制 转换 为 数据 框 ， 比 如 ， 
> Lst<-list( 
Name=c("Alice", "Becka", "James", "Jeffrey", "John'"), 
Sex=c("F", "F", "M", "M", "M"), 
Age=c(13，13，12，13，12) ， 
Height=c(56.5，65.3，57.3，62.5，59.0) ， 
Weight=c(84.0，98.0，83.0，84.0，99.5) 
); Lst 
$Name 
[1] "Alice" "Becka" "James" "Jeffrey" "John" 
$Sex 
[1] "FF" "FF" "M" "M" "M" 
$Age 
[1] 13 13 12 13 12 
$Height 
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[1] 56.5 65.3 57.3 62.5 59.0 
$Weight 
[1] 84.0 98.0 83.0 84.0 99.5 
则 as.data.frame(Lst) 是 与 df 相同 的 数据 框 . 
一 个 矩阵 可 以 用 data.frame() 转换 为 一 个 数据 框 ， 如果 它 原来 有 列 名 则 其 
列 名 被 作为 数据 框 的 变量 名 ;否则 系统 自动 为 害 阵 的 各 列 起 一 个 变量 名 .如 
> X <- array(1:6, c(2,3)) 
> data.frame (X) 
X1 X2 X3 
41 1 污 淖 
2 2 4 6 





2. 数据 框 的 引用 


引用 数据 框 元 素 的 方法 与 引用 算 阵 元 素 的 方法 相同 , 可 以 使 用 下 标 或 下 标 向 
量 ， 也 可 以 使 用 名 字 或 名 字 疝 量 . 如 TT 
> df[1:2，3:5] 
~ Age Height Weight 
1 13 56.5 84 
2 13 65.3 98 


数据 框 的 各 变量 也 可 以 用 按 列表 引用 〈 即 用 双 括号 [[ ]] 或 $ 符号 引用 ). 如 

> df[["Height"]] 

[1] 56.5 65.3 57.3 62.5 59.0 

> df$Weight 

[1] 84.0 98.0 83.0 84.0 99.5 
数据 框 的 变量 名 由 属性 names 定义 , 此 属性 一 定 是 非 空 的 . 数据 框 的 各 行 也 可 以 
定义 名 字 ， 可 以 用 Fowname 引 属性 定义 ， 如 


> names (df) 














[1] "Name'" Sex' "Age" "Height" "Weight" 
> rownames(df)<-c('"one", "two'", "three", "four", "five'") 
> df 


Name Sex Age Height Weight 
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13 56.5 84.0 
13 65.3 98.0 
57.3 83.0 
13 62.5 84.0 
12 59.0 99.5 


one Alice 
two Becka 
three James 


four Jeffrey 


三 三 可 可 
i 
D 


five John 


3. attach() 函数 
数据 框 的 主要 用 途 是 保存 统计 建 模 的 数据 ， R 的 统计 建 模 功能 都 需要 以 数 
据 框 为 输入 数据 . 我 们 也 可 以 把 数据 框 当成 一 种 矩阵 来 处 理 . 在 使 用 数据 框 的 变 
量 时 可 以 用 “数据 框 名 $ 变量 名 ”的 记 法 . 但 是 ， 这 样 使 用 较 麻 烦 ， R 提供 了 
GEtachgO 函数 可 以 把 数据 框 中 的 变量 “连接 ”到 内 存 中 , 这 样 便于 数据 框 数 据 的 
调用 ， 例 如 ， 
> attach (df) 
> TY <- Height/Weight; r 
[1] 0.6726190 0.6663265 0.6903614 0.7440476 0.5929648 
后 一 语句 将 在 当前 工作 空间 建立 一 个 新 变量 r, 它 不 会 自动 进入 数据 框 df 中 ， 











要 把 新 变量 赋值 到 数据 框 中 ， 可 以 用 
> df$r <- Height/Weight 
为 了 取消 连接 ， 只 要 调用 QetachO( 无 参数 即 可 ). 





中 名 字 空 间 的 管理 是 比较 独特 的 ， 它 在 运行 时 保持 一 个 变量 搜索 
路 径 表 ,在 读 取 茶 个 变量 时 到 这 个 变量 搜索 路 径 表 中 由 前 向 后 查找 ,找到 最 前 的 
一 个 ; 在 赋值 时 总 是 在 位 置 1 赋值 (除非 特别 指定 在 其 它 位 置 赋 值 ). attach() 的 
缺 省 位 置 是 在 变量 搜索 路 径 表 的 位 置 2, detach() 缺 省 也 是 去 掉 位 置 2. 所 以 ， 
R 编程 的 一 个 常见 问题 是 当 你 误 用 了 一 个 自己 并 没有 赋值 的 变量 时 有 可 能 不 出 
错 ， 因 为 这 个 变量 已 在 搜索 路 径 中 某 个 位 置 有 定义 ， 这 样 不 利于 程序 的 调试 ， 需 
要 留心 这 样 的 问题 . 

attach() 除了 可 以 连接 数据 框 ， 也 可 以 连接 列表 . 


2.6.3 ”列表 与 数据 框 的 编辑 


如 果 需 要 对 列表 或 数据 框 中 的 数据 进行 编辑 ， 也 可 调用 函数 柄 旋 O 进行 纺 
辑 、 修 改 ， 其 命令 格式 为 
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> xnew <- edit(xold) 
其 中 xold 是 原 列 表 或 数据 框图 。 xnew 是 修改 后 的 列表 或 数据 框 . 注意 ， 原 数 
据 xold 并 没有 改动 ， 改 动 的 数据 存放 在 xnev 中 . 
函数 edit() 也 可 以 对 向 量 ， 数 组 或 卸 阵 类 型 的 数据 进行 修改 或 编辑 . 


2.7 读 、 写 数据 文件 


在 应 用 统计 学 中 ， 数 据 量 一 般 是 比较 大 的 ， 变 量 也 很 多 . 如 果 用 上 述 方法 来 
建立 数据 集 ， 是 不 可 取 的 . 上 述 方法 适用 于 少量 数据 、 少 量变 量 的 分 析 . 对 于 大 
量 数据 和 变量 ， 一 般 应 在 其 他 软件 中 输入 (或 数据 来 源 是 其 他 软件 的 输出 结果 )， 
再 读 到 R 中 处 理 . R 软件 有 多 种 读数 据 文 件 的 方法 . 

另外 ， 所 有 的 计算 结果 也 不 应 只 在 屏幕 上 输出 ， 应 当 保存 在 文件 中 ， 以 备 使 
用 . 

这 里 介绍 一 些 R 软件 读 、 写 数据 文件 的 方法 . 

2.7.1 ” 读 纯 文本 文件 

读 纯 文本 文件 有 两 个 函数 ， 一 个 是 read.table() 函数 ， 另 一 个 是 scan() 

1. read.table( ) 函数 

read.table() 王 数 是 读 表 格 形式 的 文件 . 若 “ 住 宅 ” 数据 已 经 输入 一 个 纯 文 
本 文件 "houses .data'" 中 ， 其 格式 如 下 : 


Price Floor Area Rooms Age Cent.heat 


01 52.00 111.0 830 5 6.2 no 





02 54.75 128.0 710 5 7.5 no 
03 57.50 101.0 1000 5 4.2 no 
04 57.50 131.0 690 6 8.8 no 
05 59.75 93.0 900 5 1.9 yes 


其 中 第 一 行为 变量 名 ， 第 一 列 为 记录 序号 . 
利用 read.table() 函数 可 读 入 数据 ， 如 


> rt <- read.table('"houses.data'") 
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此 时 变量 rt 是 一 个 数据 框 ， 其 形式 与 纯 文 本 文件 "houses .data'" 格式 相同 . 我 
们 对 它 进 行 测试 ， 得 到 

> is.dqata.frame(Lt) 

[1] TRUE 
如 果 数 据 文件 中 没有 第 一 列 记 录 序 号 ， 如 

Price Floor Area Rooms Age Cent.heat 


52.00 111.0 830 5 6.2 no 


54.75 128.0 710 5 7.5 no 
57.50 101.0 1000 5 4.2 no 
57.50 131.0 690 6 8.8 no 
59.75 93.0 900 5 1.9 yes 
则 相应 的 命令 改 为 
> rt <- read.table('"houses.data", header=TRUE) 
在 rt 会 自动 加 上 记录 序号 . 
read.table() 的 使 用 格式 为 
read.table(file, header = FALSE, sep = "", quote = "\"’", 
dec = ".", row.names, col.names, as.is = FALSE, 
na.strings = "NA", colClasses = NA, nrows = -1, 


skip = 0, check.names = TRUE, 

fill = !Iblank.lines.skip, strip.white = FALSE, 

blank.lines.skip = TRUE, comment.char = "#") 
其 中 file 是 读 入 数据 的 文件 名 . header=TRUE 表示 所 读数 据 的 第 一 行为 变量 
名 ; 否则 ( 缺 省 值 ) 第 一 行 作为 数据 ， sep 是 数据 分 隔 的 字符 ， 通 常用 空格 作为 
分 隔 符 ， Sa 表示 读数 据 时 跳 过 的 行 数 ， 其 他 参数 的 用 法 请 见 帮 助 . 


2. scan( ) 函数 
a 例如 ,有 15 名 学 生 的 体重 数据 已 


经 输入 一 个 纯 文 本 文件 "weight .data" 中 ， 其 格式 如 下 : 
75.0 64.0 47.4 66.9 62.2 62.2 58.7 63.5 
66.6 64.0 57.0 69.0 56.9 50.0 72.0 


则 
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W <- scan("weight.data'") 
将 文件 中 的 15 个 数据 读 入 ， 并 赋 给 向 量 w. 
假设 数据 中 有 不 同 的 属性 ， 如 下 面 
172.4 75.0 169.3 54.8 169.3 64.0 171.4 64.8 166.5 47.4 


171.4 62.2 168.2 66.9 165.1 52.0 168.8 62.2 167.8 65.0 
165.8 62.2 167.8 65.0 164.4 58.7 169.9 57.5 164.9 63.5 


是 100 名 学 生 的 身高 和 体重 的 数据 ， 放 在 纯 文本 数据 文件 "h_w.data", 其 中 第 
1、3、5、7、9 列 是 身高 (cm), 第 2、4、6、8、10 列 是 体重 (kg), 则 
> inp <- Scan("h_w.dqata"，1ist(height=0，VWeight=0)) 

将 数据 读 入 ， 并 以 列表 的 方式 赋 给 变量 inp. 
> is.list(inp) 
[1] TRUE 
可 以 将 由 scan() 读 入 的 数据 存放 成 矩阵 形式 ， 如 果 将 “weight.data” 中 的 
体重 数据 放 在 一 个 3 行 5 列 的 矩阵 中 ， 而 且 数 据 按 行 放置 ， 其 命令 格式 为 
> X <- matrix(scan("weight.dqata"，0) ， 
nrow=3, ncol=5, byrow=TRUE) 
Read 15 items 
>X 
[,1] [,2] [,3] [,4] [,5] 
[1,] 75.0 64.0 47.4 66.9 62.2 
[2,] 62.2 58.7 63.5 66.6 64.0 
[3,] 57.0 69.0 56.9 50.0 72.0 
由 前 面 讲 到 的 函数 matrix() 的 用 法 ， 下 面 两 种 写法 是 等 价 的 ， 


> X <- matrix(scan("input.dat", 0), ncol=5, byrow=TRUE) 





> X <- matrix(scan("input .dat", 0), nrow=3, byrow=TRUE) 


也 可 以 用 ScamO 函数 直接 从 屏幕 上 输 数 据 。 如 
> x<-scan() 
”1:13579 
6: 
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Read 5 items 
>x 


[1] 13579 
本 亚 昌 读 文 件 的 一 般 格 式 为 


scan(file = "", what = double(0), nmax = -1, 
n= -1, sep = "",， 
quote = if(identical(sep, "\n")) "" else "NI ， 
dec = ".", ‘8kip = 0, nlines = 0, na.strings = "NA'", 
flush = FALSE, fill] = FALSE, strip.white = FALSE, 
quiet = FALSE, blank.lines.skip = TRUE， 
multi.line = TRUE, comment.char = "",， 
allowEscapes = TRUE) 
其 中 file 为 文件 名 . what 为 指定 一 个 列表 ， 则 列表 每 项 的 类 型 为 需要 读 取 的 
类 型 . skip 控制 可 以 跳 过 文件 的 开始 不 读 行 数 。 sep 控制 可 以 指定 数据 间 的 
分 隔 符 .其 它 参 数 见 帮 助 文件 . 
2.7.2 ” 读 其 它 格式 的 数据 文件 
R 软件 除了 可 以 读 纯 文 本 文件 外 ， 还 可 以 读 其 他 统计 软件 格式 的 数据 ， 如 
Minitab 、 S-PLUS 、 SAS 、 SPSS 等 .要 读 入 其 他 格式 数据 库 ， 必 须 先 调 入 
"foreign" 模块 . 它 不 属于 R 的 内 在 模块 , 需要 在 使 用 前 调 入 . 调 入 的 方法 很 简 
便 ， 只 需 键入 命令 : 
> library (foreign) 
或 用 2.1.3 市 介绍 的 载 入 程序 包 调 入 . 
1. 读 SPSS 、SAS 、S-PLUS 、 Stata 数据 文件 


已 知 数据 由 表 2.2 所 示 . 分 别 存 成 SPSS 数据 文件 ("educ_scores.sav")、 
SAS 数据 文件 ("educ_scores .xpt") 、 S-PLUS 数据 文件 ("educ_scores") 和 
Stata 数据 文件 ("educ_scores .dta"). 

读 SPSS 文件 的 格式 是 : 


> rs <- read.spss("educ_scores.sav'") 


其 变量 rs 是 一 个 列表 ， 如 果 打算 形成 数据 框 ， 则 命令 格式 为 
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表 2.2: 某 学 院 学 生 数据 


Sex of 
Language | Analogical | Geometric student 
Aptiude | Reasoning | Reasoning | (Male =1) 

Student (x1) (x2) (zx3) (x4) 





于 GD 有 局 OQ 器 


> rs<-read.spss("educ_scores.sav", to.data.frame=TRUE) 
读 SAS 文件 的 格式 是 : 
> rx <- read.xport("educ_scores.xpt") 
其 变量 rx 是 一 个 数据 框 . 
读 S-PLUs 文件 的 格式 是 : 
> rs <- read.S("educ_scores'") 
其 变量 rs 是 一 个 数据 框 . 
读 Stata 文件 的 格式 是 : 
> rd <- read.dta("educ_scores.dta") 
其 变量 rd 是 一 个 数据 框 . 
2. 读 Excel 数据 文件 
将 上 述 数据 存 为 Excel 表 ("educ_scores.xls"), 但 R 软件 无 法 直接 读 Excel 
表 ， 需 要 将 Excel 表 进入 转化 成 其 他 格式 ， 然 后 才能 被 R 软件 读 出 . 
第 一 种 转化 格式 是 将 Excel 表 转 化 成 “文本 文件 ( 制 表 符 分 隔 )” 文 件 ， 如 图 
2.18 所 示 . 
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图 2.18: 将 Excel 表 存 为 文本 文件 


用 函数 read .delim() 读 该 文本 文件 ， 即 
> rd <- read.delim("educ_scores.txt") 
得 到 的 变量 rd 是 一 个 数据 框 . 
第 二 种 转化 格式 是 将 Excel 表 转 化 成 “CSV( 逗 号 分 隔 )” 文件， 如 图 2.19 所 


用 函数 read .csv() 读 该 文本 文件 ， 即 
> rc <- read.csv("educ_scores.csv'") 
得 到 的 变量 rc 是 一 个 数据 框 . 
2.7.3 ”链接 嵌入 的 数据 库 
R 软件 中 提供 了 50 多 个 数据 库 和 其 他 可 利用 的 软件 包 ， 可 以 用 aatag 也 
数 调用 这 些 数据 库 与 软件 包 . 用 
> data() 


令 , 列 出 在 基本 软件 包 (base) 所 有 可 利用 的 数据 集 . 如 果 装 载 某 一 个 数据 集 ， 
只 需 在 括号 中 加 入 相应 的 名 字 ， 如 


> data(infert) 


命 
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图 2.19: 将 Excel 表 存 为 CSV 文件 


如 果 需 要 从 其 他 的 软件 包 链 接 数据 ， 可 以 使 用 参数 package, 例如 ， 
> data(package="nls'") 
> data(Puromycin,package="nls") 
如 果 一 个 软件 包 已 被 1ibrary 附加 在 库 中 ， 则 这 个 数据 库 将 自动 地 被 包含 在 其 
| 
> library(nls) 
> data() 


> data(Puromycin) 


在 data() 中 ， 除 包含 基本 软件 包 (base) 还 包含 nls 软件 包 . 
2.7.4 ” 写 数据 文件 


1. write( ) 函数 
古寺 GO) 函数 写 数据 文件 的 格式 是 


write(x, file = "data", 


ncolumns = if(is.character(x)) 1 else 5, 
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append = FALSE) 
其 中 x 是 数据 ， 通 常 是 矩阵 ， 也 可 以 是 向 量 。 file 是 文件 名 ( 缺 省 时 文件 名 为 
"data"). append=TRUE 时 ， 在 原文 件 上 填 加 数据 ;否则 (FALSE, 缺 省 值 ) 写 一 个 
新 文件 ， 其 它 参数 见 帮 助 文件 . 
2. write.table( ) 函数 和 write.csv( ) 函数 
对 于 列表 数据 或 数据 框 数据 ， 可 以 用 三 二 estable() 也 数 或 WritescsvO) 
函数 写 纯 文 本 格式 的 数据 文件 ， 或 CSV 格式 的 Excel 数据 文件 ， 例 如 ， 
> df <- data.frame( 
Name=c("Alice", "Becka", "James", "Jeffrey", "John"), 
Sex=cC"F", "F", "M", "M", "M"), 
Age=c(13，13，12，13，12) ， 
Height=c(56.5，65.3，57.3，62.5，59.0) ， 
Weight=c(84.0，98.0，83.0，84.0，99.5) 
) 
> write.table(df, file="foo.txt") 
> write.csv(df, file="foo.csv'") 
write.table() 函数 和 write.csv() 函数 的 使 用 格式 为 
write.table(x, file = "", append = FALSE, quote = TRUE, 
Sep =" ", eol = "\n", na = "NA", dec = ".", 
row.names = TRUE, col.names = TRUE, 


qmethod = c("escape", "double'")) 


write.csv(..., col.names = NA, sep = ",", 
qmethod = "double") 
其 中 x 是 对 象 ，file 是 文件 名 .，append=TRUE 时 ,在 原文 件 上 填 加 数据 ， 否则 
(FALSE, 缺 省 值 ) 写 一 个 新 文件 sep 是 数据 间隔 字符 .其 它 参 数 见 帮助 文件 . 


2.8 ”控制 流 


R 是 一 个 表达 式 语言 ， 其 任何 一 个 语句 都 可 以 看 成 是 一 个 表达 式 . 表达 式 之 
间 以 分 号 分 隔 或 用 换行 分 隔 . 表达 式 可 以 续 行 ， 只 要 前 一 行 不 是 完整 表达 式 ( 比 
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如 来 尾 是 加 减 乘 除 等 运算 符 ， 或 有 未 配对 的 括 导 ) 则 下 一 行为 上 一 行 的 继续 . 
若干 个 表达 式 可 以 放 在 一 起 组 成 一 个 复合 表达 式 ， 作 为 一 个 表达 式 使 用 . 组 
合用 花 括号 “{ 六 表示 . 
R 语言 也 提供 了 其 它 高 级 程序 语言 共有 的 分 文 、 循 环 等 程序 控制 结构 . 
2.8.1 分支 语 句 
分 支 语句 有 if / else 语句 、 switch 语句 . 
1. 让 / else 语句 
if / else 语句 是 分 文 语句 中 主要 的 语句 ， GE else 语句 的 格式 为 
if(cond) statement_1 
if(cond) statement_1 else statement_2 
第 一 句 的 意义 是 : 如 果 条 件 cond 成 立 ， 则 执行 表达 式 statement_1; 否则 跳 过 . 
第 二 句 的 意义 是 ， 如 果 条 件 cond 成 立 ， 则 执行 表达 式 statement_1; 否则 执行 
表达 式 statement_2. 
例如 ， 
if( any(x <= 0) ) y <- log(1+X) else y <- log(x) 
注意 ， 此 命令 与 下 面 的 命令 
y <- if( any(x <= 0) ) log(1+x) else log(x) 
等 价 . 
对 于 if / else 语句 ， 还 有 下 面 的 用 法 
if ( cond_1) 
statement_1 
else if (cond 2) 
Statement_2 
else if (cond 3 ) 
Statement_3 
else 


statement_4 
2. switch 语句 
switch 语句 是 多 分 支 语 句 ， 其 使 用 方法 是 : 
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switch (statement, list) 
其 中 statement 是 表达 式 ， list 是 列表 ， 可 以 用 有 名 定义 .如 果 表 达 式 的 返回 
值 在 1 到 length(1list), 则 返回 列表 相应 位 置 的 值 ， 否 则 返回 “NULL” 值 . 例 
如 ， 





>x <-3 

> switch(x, 2+2, mean(1:10), rnorm(4)) 

[1] 0.8927328 -0.7827752 1.0772888 1.0632371 

> switch(2, 2+2, mean(1:10), rnorm(4)) 

[1] 5.5 

> switch(6, 2+2, mean(1:10), rnorm(4)) 

NULL 
当 list 是 有 名 定义 时 ， statement 等 于 变量 名 时 ， 返 回 变量 名 对 应 的 值 ， 否 则 
返回 “NULL” 值 .例如 ， 

> y <- "fruitn 

> switch(y,fruit="banana" ,Vegetable='"broccoli" ,meat="beef'") 


[1] banana 


2.8.2 ”中 止 语句 与 空 语 句 


中 止 语 句 是 zsam 语句 ， break 语句 的 作用 是 中 止 循 环 ， 使 程序 跳 到 循环 
以 外 ， 空 语句 是 喇 琵 语句， next 语句 是 继续 执行 ， 而 不 执行 某 个 实质 性 的 内 
容 . 关于 break 语句 和 next 语句 的 例子 ， 将 结合 循环 语句 来 说 明 . 


2.8.3 ”循环 语句 

循环 语句 有 for 循环 、 while 循环 和 repeat 循环 语句 . 

1. for 循环 语句 

EoF 循环 的 格式 为 

> for (name in expr_1) expr_2 

其 中 mame 是 循环 变量 ， (6Xpr24 是 一 个 向 量 表达 式 (通常 是 个 序列 ， 如 1:20)， 
(Exp732 通 常 是 一 组 表达 式 . 

如 构造 一 个 4 阶 的 Hilbert 矩阵， 
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> n<-4; x<-array(0, dim=c (n,n)) 
> for (i in 1:n){ 
for (j in 1:n){ 
x[i,j]<-1/(i+j-1) 


[,1] [,2] [,3] [ ,4] 
[1,] 1.0000000 0.5000000 0.3333333 0.2500000 
[2,] 0.5000000 0.3333333 0.2500000 0.2000000 
[3,] 0.3333333 0.2500000 0.2000000 0.1666667 
[4,] 0.2500000 0.2000000 0.1666667 0.1428571 


2. while 循环 语句 
i 并 循环 语句 while 语句 的 格式 为 


> while (condition) expr 
当 条 件 Conaitio 到 成 立 ， 则 执行 表达 式 'expz 例如 ， 编 写 一 个 计算 1000 以 内 的 
Fibonacci 数 . 
> f<-1; f[2]<-1; i<-1 
> while (f[i]+f[i+1]<1000) { 
f [i+2] <-f [i]+f [i+1] 
i<-i+1; 
于 
> 于 


[1] 1 1 2 3 5 8 13 21 34 55 89 144 
[13] 233 377 610 987 


3. repeat 循环 语句 
Fepeat 语句 的 格式 为 
> repeat expr 


repeat 循环 依赖 break 语句 跳出 循环 . 例如 ,用 repeat 循环 编写 一 个 计算 1000 
以 内 的 Fibonacci 数 的 程序 . 
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> f<-1; f[2]<-1; i<-1 
> repeat { 
f[i+2] <-f [i]+f [i+1] 
i<-i+1 
if (f[i]+f[i+1]>=1000) break 
下 


或 将 条 件 语句 改 为 if (f[i]+f[i+1]<1000) next else break, 也 有 同样 的 计 
算 结果 . 


2.9 ”编写 自己 的 函数 


R 软件 允许 用 户 自己 创建 模型 的 目标 函数 ， 有 许多 R 函数 存 贮 为 特殊 的 内 
部 形式 ， 并 可 以 被 进一步 的 调用 . 这样 在 使 用 时 可 以 使 语言 更 有 力 、 更 方便 ， 而 
且 程 序 也 更 美观 . 学 习 写 自己 的 程序 是 你 学 习 使 用 R 语言 的 主要 方法 之 一 . 

事实 上 ， BR 系统 提供 的 绝 大 多 数 函 数 ， 如 mean(), var(), postscript() 
等 ， 是 系统 编写 人 员 写 在 R 语言 中 的 函数 ， 与 你 自己 写 的 函数 本 质 上 没有 多 大 
差别 . 

函数 定义 的 格式 如 下 ， 

> name <- function(arg._1, arg_2, ...) expression 

Pres5i6 到 是 R 中 的 表达 式 (通常 是 一 组 表达 式 ), 本 可 吉 afB22 轩 表示 也 数 
的 参数 . 表达 式 中 ， 放 在 程序 最 后 的 信息 是 函数 的 返回 值 ， 返 回 值 可 以 是 向 量 、 
数组 (矩阵 ) 、 列 表 或 数据 框 . 

调用 函数 的 格式 为 name (expr_1，expr-_2，...), 并 且 在 任何 时 调用 都 是 合 
法 的 . 

在 调用 自己 编写 的 函数 (程序 ) 时 ， 需 要 将 已 写 好 的 函数 调 到 内 存 中 ， 即 使 
用 2.1.3 节 介 绍 的 “输入 R 代码 . . . ”命令 ， 执 行 source() 函数 . 关于 函数 的 调 
用 ,后 面 的 各 章 还 会 有 介绍 . 




















2.9.1 简单 的 例子 
与 其 他 程序 一 样 ， R 可 以 很 容易 地 编写 自己 需要 的 函数 . 
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例 2.4 编写 一 个 用 二 分 法 求 非 线性 方程 根 的 函数 ， 并 求 方 程 


rl1=0 


在 区 间 [1,2] 内 的 根 ， 精 度 要 求 = == 10-6. 
解 : 取 初 始 区 间 [a, 4], 当 f(a) 与 f(b) 蜡 号 ， 作 二 分 法 计算 ;否则 停止 计算 
(输出 计算 失败 信息 ). 
二 分 法 计算 过 程 如 下 ， 取 中 点 x = 加?, 车 f(a) 与 f(z) 蜡 导 ， 则 置 b= 7; 
否则 a = zx. 当 区 间 长 度 小 于 指定 要 求 时 ， 停 止 计 算 . 
编写 二 分 法 程序 ， 程 序 名 :bisect.R. 
fzero <- function(f, a, b, eps=1e-5)1{ 
if (f(a)*f(b)>0) 
list(fail="finding root is fail!") 
elsel{ 
repeat + 
if (abs(b-a)<eps) break 
x <- (at+b)/2 
if (f(a)*f(x)<0) b<-x else a<-x 
} 
list(root=(a+b)/2, fun=f (x)) 


} 

在 二 分 法 求 根 的 函数 (程序 ) 中 , 输入 值 于 是 求 根 的 函数 ，a，b 是 二 分 法 的 
左右 端点 eps=1e-5 是 精度 要 求 ， 是 有 名 参数 (后 面 将 介绍 ). 函数 (程序 ) 的 返 
回 值 是 列表 ， 当 初始 区 间 不 满足 要 求 时 ， 返 回 值 为 “finding root is failf” ( 求 根 失 
败 ); 当 满 足 终止 条 件 时 ， 返 回 值 为 方程 根 的 近似 值 和 在 近似 点 处 的 函数 值 . 

建立 求 根 的 非 线性 函数 

f<-function(x) x 3-x-1 
求 它 在 区 间 [1,2] 内 的 根 . 

> fzero(f, 1, 2, 1e-6) 

$root 

[1] 1.324718 
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$fun 
[1] -1.857576e-06 
事实 上 ， 大 家 不 用 编写 求 根 函数 ， R 软件 已 提供 了 求 一 元 方程 根 的 函数 
niroot0) 其 使 用 格式 为 


uniroot(f, interval, 








lower = min(interval), upper = max(interval), 





tol = .Machine$double.eps“*0.25, maxiter = 1000, ... 
例如 ， 要 求 例 2.4 的 根 ， 只 需 输 入 命令 
> uniroot (f, c(1,2)) 
就 可 得 到 
$root 
[1] 1.324718 
$f .root 
[1] -5.634261e-07 
$iter 
[1] 7 
$estim.prec 
[1] 6.103516e-05 
其 计算 结果 与 我 们 编写 的 程序 的 计算 结果 是 相同 的 . 
下 面 编写 一 个 与 统计 有 关 的 函数 一 计算 两 样本 的 了 统计 量 . 
例 2.5 已 知 两 样本 
A: 79.98 80.04 80.02 80.04 80.03 80.03 80.04 79.97 
80.05 80.03 80.02 80.00 80.02 
B: 80.02 79.94 79.98 79.97 79.97 80.03 79.95 79.97 
计算 两 样本 的 了 统计 量 . 
解 : 当 两 样本 的 方差 相同 ， 且 未 知 ， 则 了 统计 量 的 计算 公式 为 
X= 





了 二 二 一生 (2.1) 
站 机 和 二 
其 中 
92 一 Ca (2.2) 


ni 十 n2 一 2 


2.9 编写 自己 的 函数 117 


和 ,Y 分 别 是 两 组 数据 的 样本 均值 ， S51, 52 分 别 是 两 组 数据 的 样本 方差 ， mi, ma 
分 别 为 两 组 数据 的 个 数 . 
按照 式 (2.1) 和 (2.2) 编写 相应 的 程序 ( 程序 名 :twosam.R ) 
twosam <- function(y1，y2) { 
ni <- length(y1); n2 <- length(y2) 
yb1l1 <- mean(y1); yb2 <- mean(y2) 
si <- Var(y1); s2 <- var(y2) 
s <- ((ni-1)*si + (n2-1)*s2)/(ni+n2-2) 
(ybl - yb2)/sqrt(s*(1/ni + 1/n2)) 
} 
在 函数 (程序 ) 中 ， 输 入 值 yt ，y2 是 需要 计算 T 统计 量 的 两 组 数据 .函数 
(程序 ) 的 返回 值 是 数值 型 变量 ， 给 出 相应 的 工 统 计量 . 
输入 数据 A, B, 并 计算 了 统计 量 . 
> A <- c(79.98，80.04，80.02，80.04，80.03，80.03， 
80.04，79.97，80.05，80.03，80.02，80.00，80.02) 
> B <- c(80.02，79.94，79.98，79.97，79.97，80.03， 
79.95，79.97) 
> twosam(A,B) 
[1] 3.472245 


在 后 面 我 们 还 会 讲 到 ， 用 了 统计 量 来 估计 两 样本 均值 是 否 相 同 . 
2.9.2 ”定义 新 的 二 元 运算 

R 软件 可 以 定义 的 二 元 运算 ， 其 形式 为 hanything%. 设 x,y 是 两 个 向 量 ， 
定义 zx 与 y 的 内 积 

(z,y) = exp(—|lz — yll*/2), 
其 运算 符号 用 %!1% 表示 ， 则 二 元 运算 的 定义 如 下 
IN" <- function(x， y) {exp(-0.5*(x-y) V*Y (x-y))} 

2.9.3 有 名 参数 与 省 缺 


如 果 用 这 种 形式 “ name=object ”给 出 被 调用 函数 中 的 参数 ， 则 这 些 参数 可 
以 按照 任何 顺序 给 出 ， 如 定义 如 下 函数 
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> fun1 <- function(data, data.frame, graph, limit) { 
[function body omitted] 
} 


则 下 面 的 三 种 调用 方法 
> ans <- funi(d, df, TRUE, 20) 


> ans <- funi(d, df, graph=TRUE, limit=20) 
> ans <- funi(data=d, limit=20, graph=TRUE, data.frame=df) 


都 是 等 价 的 . 


如 果 在 例 2.4 中 ， 其 精度 要 求 取 le-5(10-5), 则 不 必 输 入 精度 要 求 ， 直 接 输 
入 区 间 端 点 即 可 . 


> fzero(1,2) 
$root 

[1] 1.324718 

$fun 

[1] -1.405875e-05 


下 面 利 用 有 名 参数 的 方法 编写 一 个 求 非 线性 方程 组 根 的 Newton 法 的 程序 . 


例 2.6 编写 求 非 线性 方程 组 解 的 Newton 法 的 程序 , 并 用 此 程序 求解 非 线性 方程 
组 


i 


(Zz1 十 1)z2 = (371 十 1) 二 0 


的 解 ， 取 初始 点 Z(0 = (0,1)7, 精度 要 求 = 一 10-5. 
解 : 求解 非 线性 方程 组 


f(x)=0, 7 有 一 了 EC 
的 Newton 法 的 从 代 格式 为 


THD rk) [J(z®)]-1f(z®), k= 0,1,..- 


2.9 编写 自己 的 函数 119 


其 中 J(z) 为 函数 f(x) 的 Jacobi 矩阵 ， 即 


2 5 .0 
Ox1 Ox2 Ozn 
app df ... 3f2 
J (7) OxX1 Ox2 Oxn 
om Qfn ... fn 
Ox1 Ox2 Ozrn 


因此 ， 相 应 的 程序 (程序 名 ”Newtons.R ) 为 
Newtons<-function (fun, x, ep=1le-5, it_max=100)+ 
index<-0; k<-1 
While (k<=it_max){ 
xl <- x; obj <- fun(x) ; 
X <- x - solve(obj$J], obj$f); 
norm <- sqrt((x-x1) %*% (x-x1)) 
if (norm<ep){ 
index<-1; break 
} 
k<-k+1 
} 
obj <- fun(x); 
list(root=x, it=k, index=index, FunVal= obj$f) 
} 

在 此 函数 (程序 ) 中 ， 输 入 变量 有 ， fun 是 由 方程 构成 的 函数 ， 具 体形 式 在 
下 面 介 绍 ， x 是 初始 变量 ， ep 是 精度 要 求 ， 缺 省 时 为 10“. it_max 是 最 大 和 迭 
代 次 数 ， 缺 省 时 为 100. 

函数 (程序 ) 以 列表 的 形式 作为 输出 变量 ， 有 : root 是 方程 解 的 近似 值 . 
it 是 欠 代 次 数 ， index 是 指标 ， index=1 表明 计算 成 功 ， index=0 表明 计算 失 
败 ._ FunVal 是 方程 在 root 处 的 函数 值 . 

编写 求 方程 的 函数 (程序 名 :funs .BR) 

funs<-function(x){ 


f<-c(x[1] “2+x[2] “2-5, (x[1]+1)*x[2]-(3*x[1]+1)) 


120 第 二 章 R 软件 的 使 用 


J<-matrix(c(2*x[1] , 2*x[2], x[2]-3, x[1]+1), 
nrow=2, byrow=T) 
list(f=f, J=J) 
} 
函数 (程序 ) 的 输入 变量 是 x. 在 函数 (程序 ) 中 ，f£ 是 所 求 方程 的 函数 ，J 是 
相应 的 Jacobi 和 矩阵， 函数 的 输出 以 列表 形式 给 出 ， 输 出 函数 值 和 相应 的 Jacobi 
矩阵 . 
下 面 求解 该 方程 
> Newtons(funs, c(0,1)) 
$root 
L112 
$it 
[1] 6 
$index 
[1] 1 
$FunVal 
[1] 1.598721e-14 6.217249e-15 


即 方程 的 解 = (1,2)”，, 总 共 志 代 了 6 次 . 
2.9.4 ”递归 函数 











R 函数 是 可 以 递归 的 ， 可 以 在 函数 自身 内 定义 函数 本 身 . 下 面 的 例子 是 用 递 
归 函 数 计算 数值 积 
例 2.7 用 递归 函数 计算 数值 积分 三 坚 ,精度 要 求 < = 10-5. 

解 : 采用 自动 选择 步 长 的 复 化 梯形 公式 ， 其 方法 是 : 每 次 将 区 间 二 等 分 ， 在 
子 区 间 上 采用 梯形 求 积 公式 ， 如 果 计 算 满足 精度 要 求 或 达到 最 大 迭代 次 数 ， 则 停 
止 计算 ， 否 则 继续 将 区 间 对 分 ,编写 相应 的 计算 程序 ( 程序 名 area.R ) 


area <- function(f, a, b, eps = 1.0e-06, lim = 10) { 








funi <- function(f, a, b, fa, fb, a0, eps, lim, fun) { 
d <- (a + b)/2; h <- (b - a)/4; fd <- f(d) 
al <- h * (fa + fd); a2 <- h * (fd + fb) 
if(abs(a0 - al - a2) < eps || lim == 0) 
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return(al + a2) 
else { 
return(fun(E，a，d，fa，fd，al，eps，1lim - 1, fun) 
+ fun(f, d, b, fd, fb, a2, eps, lim - 1, fun)) 


fa <- f(a); fb <- f(b); a0 <- ((fa + fb) * (b - a))/2 
funi(f, a, b, fa, fb, a0, eps, lim, fun1) 
} 
程序 的 输入 变量 ， f£ 是 被 积 函数 ， a,b 是 积分 的 端点 ， eps 是 积分 精度 要 
求 ， 缺 省 值 为 10““. lim 是 对 分 区 间 的 上 限 ， 缺 省 值 为 10, 即 被 积 区 间 最 多 被 等 
分 为 2° 个 子 区 间 . 输出 变量 为 积分 值 . 
area 函数 相当 于 主 程序 ， 首 先 用 梯形 公式 计算 出 积分 的 近似 值 ， 然 后 调用 
函数 fun1. 
fun1 函数 相当 于 子 程序 ， 该 函数 是 采用 递归 的 定义 方式 编写 的 函数 ， 其 意 
义 是 : 将 区 间 对 分 ， 采 用 复 化 求 积 公式 ， 若 本 次 的 计算 值 与 上 一 次 的 计算 值 相差 
小 于 精度 要 求 eps 或 lim = 0 时 ， 则 停止 计算 ; 否则 分 别 调用 自身 函数 . 
下 面 计算 各 分 .， 先 定义 函数 
> f <- function(x) 1/x 
再 计算 其 积分 值 
> quad<-area(f,1,5); quad 
[1] 1.609452 


该 积分 的 精确 值 为 In 5 = 1.609438. 








习题 二 


2.1 建立 一 个 呈 文 件 ， 在 文件 中 输入 变量 x = (1,2,3)7,y = (4,5,6)7 了 ,并 作 以 
下 运算 . 

(了) 计算 z= 二 2x 十 y 十 e, 其 中 e= (1,1,1)?; 

(2) 计算 x 与 y 的 内 积 ， 
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(3) 计算 了 与 2 的 外 积 . 
2.2 将 1,2,.……,20 构成 两 个 4x5 阶 的 算 阵 ， 其 中 矩阵 4 是 按 列 输入 ， 矩 阵 B 
是 按 行 输入 ， 并 作 如 下 运算 . 

near 

(2) D= AB; 

(3) E = (eij)nxn; 其 中 @i; = aij * biy; 

(4) 下 是 由 4 的 前 3 行 和 前 3 列 构 成 的 矩阵 ; 

(5) G 是 由 和 矩阵 B 的 各 列 构成 的 短 阵 ， 但 不 含 BP 的 第 3 列 . 
2.3 构造 一 个 向 量 Z, 向 量 是 由 5 个 1, 3 个 8, 1 个 3 和 2 个 4 构成， 注意 用 到 
rep() 函数 . 
2.4 生成 一 个 5 阶 的 Hilbert 和 矩阵， 


1 


H= (hj)ixn; hi 二 化 


41,7 = 1,2,.…,n. 


(1) 计算 Hilbert 算 阵 态 的 行列 式 ， 
(2 求 瓦 的 北 和 矩阵 ; 
(3) 求 刁 的 特征 值 和 特征 向 量 . 
2.5 已 知 有 5 名 学 生 的 数据 ， 如 表 2.3 所 示 . 用 数据 框 的 形式 读 入 数据 . 


表 2.3: 学 生 数 据 
a | sn | | 4 


1 42.0 
49.0 
41.5 
4 52.0 
A586 





2.6 将 例 2.5 中 的 数据 表 2.3 的 数据 写成 一 个 纯 文 本 文件 ,用 函数 read.table() 
读 该 文件 ， 然 后 再 用 函数 write.csv() 写成 一 个 能 用 Brcel 表 能 打开 的 文件 ， 
并 用 Ercel 表 打 开 . 


习题 二 123 


2.7 编写 一 个 程序 (函数 / 输入 一 个 整数 mw 如 果 nn < 0, 则 中 止 运算 ， 并 输 
出 一 句 话 ， ”要 求 输入 一 个 正 整 数 ” 否则 ， 如 果 nn 是 偶数 ， 则 将 n 除 2, 并 赋 
给 n; 否则 ， 将 3n 十 1 赋 给 n. 不 断 箱 环 ， 只 到 几 一 1 才 停止 计算 ， 并 输出 一 名 
话 ， 人 适 算 成 功 ”. 这 个 例子 是 为 了 检验 数论 中 的 一 个 简单 的 定理 . 
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第 三 章 ”数据 描述 性 分 析 


统计 分 析 分 为 统计 描述 和 统计 推断 两 个 部 分 . 旷 计 描述 是 通过 绘制 统计 图 、 
编制 统计 表 、 计 算 统计 量 等 方法 来 表述 数据 的 分 布 特征 . 它 是 数据 分 析 的 基本 步 
又 ,也 是 进行 统计 推断 的 基础 . 本 章 介绍 统计 描述 ， 也 就 是 数据 的 描述 性 分 析 ， 
关于 统计 推 汤 的 内 容 ， 将 在 后 面 各 章 陆 续 介 绍 . 

用 计算 机 软件 作 数据 的 描述 性 分 析 ， 可 以 更 加 方便 、 直 观 ， 有 利于 对 统计 描 
述 的 理解 . 本 章 除 介绍 描 述 统计 的 基本 概念 外 ， 重 点 介绍 如 何 运用 R 软件 中 的 
函数 对 数据 进行 描述 性 分 析 . 


3.1 ”描述 统计 量 
已 知 一 组 试验 (或 观测 ) 数据 为 
TL1, XT2 ,Tn. 


它们 可 以 是 从 所 要 研究 的 对 和 象 的 全 体 一 总 体 X 中 取出 的 ， 这 7 个 观测 值 就 构 
成 一 个 样本 . 在 某 些 简单 的 实际 问题 中 ， 这 n 个 观测 值 就 是 所 要 研究 问题 的 全 
体 ， 数据 分 析 的 任务 就 是 要 对 这 全 部 n 个 数据 进行 分 析 ， 提 取 数 据 中 包含 的 有 
用 信息 . 

数据 作为 信息 的 载体 ， 当 然 要 分 析 数 据 中 包含 的 主要 信息 ， 即 要 分 析 数 据 的 
主要 特征 . 也 就 是 说 ， 要 研究 数据 的 数字 特征 . 对 于 数据 的 数字 特征 ， 要 分 析 数 
据 的 集中 位 置 、 分 散 程 度 和 数据 分 布 等 . 





3.1.1 ”位 置 的 度量 


所 请 位 置 的 度量 就 是 那些 用 来 描述 定量 资料 的 集中 趋势 的 统计 量 . 常用 的 有 
均值 、 众 数 、 中 位 数 、 百 分 位 数 等 . 


1. 均值 
均值 (mean) 是 数据 的 平均 数 ， 均 值 ( 记 为 ) 定义 为 


1 也 
元 = 二》 让 3.1 
- nc 人 
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它 描述 数据 取 值 的 平均 位 置 . 

在 R 软件 中 ， 可 用 囊 红 QO 也 数 计算 样本 的 均值 ， 其 的 使 用 方法 是 

mean(x, trim = 0, na.rm = FALSE) 

其 中 x 是 对 象 (如 向 量 、 逢 阵 、 数 组 或 数据 框 ), Ef 带 是 计算 均值 前 去 掉 与 均值 差 
较 大 数据 的 比例 ， 缺 省 值 为 0, 即 包 括 全 部 数据 ， 当 a 7W TRVE 时， 人 允许 数据 
中 有 人 缺失 数据 ,函数 的 返回 值 是 对 象 的 均值 . 

有 关 它 的 使 用 ， 将 用 例子 来 作 进一步 的 介绍 . 
例 3.1 已 知 15 位 学 生 的 体重 (单位 : 千克 ) 


75.0 64.0 47.4 66.9 622 62.2 58.7 63.5 
66.6 64.0 57.0 69.0 56.9 50.0 72.0 


求学 生体 重 的 平均 值 . 
解 : 利用 mean() 函数 求解 .建立 及 文件 (文件 名 : ”exam0301.R) 
W<- c(75.0，64.0，47.4，66.9，62.2，62.2，58.7，63.5， 
66.6，64.0，57.0，69.0，56.9，50.0，72.0) 
WwW.mean <- mean(w); W.mean 
执行 exam0301.R 的 的 全 部 程序 得 到 ， 学 生体 重 的 均值 为 62.36. 
注意 ， 当 x 是 矩阵 (或 数组 ) 时 ， 函 数 mean() 的 返回 值 ， 并 不 是 向 量 ， 而 是 
一 个 数 ， 即 矩阵 中 全 部 数据 的 平均 值 ， 例 如 ， 
> x <- 1:12; dim(x)<-c(3,4) 





> mean(x) 

[1] 6.5 
与 mean(1:12) 的 返回 值 相同 ， 而 这 里 x 是 一 个 3 x 4 的 矩阵 . 

如 果 你 需要 得 到 和 矩阵 各 行 或 各 列 的 均值 ， 需 要 调用 邮 B17() 函数 ( 见 第 二 章 

2.5.5 节 ) 计算 . 如 计算 矩阵 各 行 的 均值 ， 

> apply (x,1,mean) 

[1] 5.5 6.5 7.5 
计算 矩阵 各 列 的 均值 ， 

> apply (x,2,mean) 

[1] 2 5 811 
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如 果 x 是 数据 框 ， 则 mean() 的 返回 值 就 是 向 量 ， 如 
> mean(as.data.frame (x)) 
Vi V2 V3 V4 
和 2 5 11 
可 以 看 出 它 是 按 列 求 平 均值 的 ,其 中 命令 as .data.frame(x)( 见 第 二 章 2.6.2 节 ) 
是 将 矩阵 x 强制 转化 成 数据 框 . 
因此 , 今后 在 作 多 元 数据 分 析 时 ， 多 元 数据 的 输入 最 好 采用 数据 框 的 形式 ， 
这 样 便于 后 面 的 数据 处 理 . 
求 和 函数 Euag 是 与 求 均值 有 关 的 函数 ， 其 使 用 格式 为 
sum(..., na.rm = FALSE) 
参数 na.rn 的 意义 与 均值 函数 mean() 中 的 参数 意义 相同 . 
如 果 x 是 向 量 ， 函 数 length(x) 的 返回 值 是 向 量 x 的 长 度 ( 维 数 ). 因此 ， 
由 公式 (3.1), 例 3.1 的 均值 可 由 下 面 的 计算 得 到 ， 即 
> mean <- sum(w)/length(w); mean 
[1] 62.36 
可 以 看 出 ， 两 者 的 计算 是 相同 的 . 
但 如 果 在 数据 中 ， 某 些 数据 是 异常 值 ， 再 用 公式 (3.1) 就 不 合理 了 . 也 就 是 
说 , 不 能 简单 地 用 mean(w) 计算 样本 均值 . 例如 ， 如 果 第 一 个 学 生 的 体重 少 输入 
一 个 点 ， 变 为 750 千克 ， 此 时 按照 式 (3.1) 计算 出 的 值 会 出 现 不 合理 的 现象 ,看 
一 下 计算 结 
> w[1] <- 750 
> Ww.mean <- mean(w); w.mean 
[1] 107.36 
学 生 的 平均 体重 为 107.36 和 干 克 ， 这 显然 是 不 合理 的 . 
如 果 采 用 下 述 方法 ， 可 以 减少 由 于 输入 误差 对 计算 的 影响 . 
> w.mean <- mean(w, trim=0.1); w.mean 
[1] 62.53846 
其 中 三 迄 的 取 值 在 0 至 (0.5 之 间 ， 表 示 在 计算 均值 前 需要 去 掉 异 常 值 的 比例 . 
利用 这 个 参数 可 以 有 效 的 改善 异常 值 的 对 计算 的 影响 . 
na.rm 是 控制 缺失 数据 的 参数 . 例如， 如 果 共 有 16 位 学 生 , 但 第 16 位 学 生 
的 体重 缺失 ， 如 果 按 照 通 常 的 计算 方法 ， 将 得 不 到 结果 . 
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> w.na <- c(75.0，64.0，47.4，66.9，62.2，62.2，58.7，63.5， 
66.6，64.0，57.0，69.0，56.9，50.0，72.0，NA) 
> Ww.mean <- mean(w.na); w.mean 
[1] NA 
选用 参数 na .rm = TRUE 可 以 很 好 地 处 理 这 个 问题 ， 看 一 下 计算 结 
> w.mean <- mean(w.na, na.rm = TRUE); w.mean 
[1] 62.36 
对 于 sum() 函数 ， 此 参数 的 意义 是 相同 的 ， 即 na.rm = TRUE 表示 可 以 求 带 
有 缺失 数据 的 和 . 
与 均值 函数 mean() 相关 的 函数 还 有 BEiEtedsmeanG 即 计算 数据 的 加 权 
平均 值 ， 具体 的 使 用 格式 为 
weighted.mean(x, W, na.rm = FALSE) 
其 中 x 是 数值 向 量 ，w 是 数据 x 是 权 ， 与 x 的 维 数 相同 . 参数 na.zm 的 意义 与 
mean() 函数 相同 . 该 函数 可 以 对 矩阵 和 数组 计算 加 权 平 均值 ， 但 对 数据 框 不 适 
用 (对 于 数据 框 ， weighted.mean() 函数 的 计算 结果 与 害 阵 的 计算 结果 是 相同 
的 ， 而 mean() 函数 两 者 的 计算 结果 是 不 同 的 ). 


2. 顺序 统计 量 
设 nn 个 数据 (观测 值 ) 按 从 小 到 大 的 顺序 排列 为 











20) < X02) 入. 所 Zoo 











称 为 顺序 统计 量 (6rder statistic) 显然 ， 最 小 顺序 统计 量 为 zo), 最 大 顺序 统计 量 
为 Tn). 
在 R 软件 中 ，Ro3t() 给 观测 量 的 顺序 统计 量 ， 如 
> x <- c(75，64，47.4，66.9，62.2，62.2，58.7，63.5) 
> sort(x) 
[1] 47.4 58.7 62.2 62.2 63.5 64.0 66.9 75.0 
实际 上 , 函数 sort () 不 只 是 给 出 了 样本 的 顺序 统计 量 , 还 有 更 广泛 的 功能 ， 
其 使 用 格式 为 
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其 中 医 是 数值 、 或 字符 、 或 逮 辑 型 向 量 . Etaal 是 部 分 排序 的 指标 向 量 . 
na:Jast 是 控制 缺失 数据 的 参数 ， 当 na.last = NA( 缺 省 值 ) 时 ， 不 处 理 缺 失 数 
据 ; 当 na.last = TRUE 时 , 缺失 数据 排 在 最 后 ; 当 na.last = FALSE 时 , 缺失 数 
据 排 在 最 前 面 ， Qecreasing 是 逻辑 变量 , 控制 数据 排列 的 顺序 , 当 decreasing 

= FALSE ( 缺 省 值 ), 给 出 的 返回 值 ,是 由 小 到 大 排序 的 ; 如 果 decreasing = TRUE， 
则 函数 的 返回 值 由 大 到 小 排列 .meth6d 是 排序 的 方法 , 如 果 method = "shell" 
( 缺 省 值 ), 则 选择 Shel 排序 法 排序 ,其 运算 量 为 O(n 和 5); 如 果 method = "quick", 
则 采用 快速 排序 法 排序 , 对 于 数值 型 向 量 , 快速 排序 法 的 运算 量 一 般 要 低 于 Shell 
排序 法 .Gamaadexsretura 是 逻辑 变量 , 是 控制 排序 下 标的 返回 值 , 当 index.return 
= TRUE 时 ( 缺 省 值 为 FALSE), 函数 的 返回 值 是 一 列表 ,列表 的 第 一 个 变量 $x 是 
排序 的 顺序 ， 第 二 个 变量 是 $ix 是 排序 顺序 的 下 标 对 应 的 值 . 


下 面 用 数值 例子 看 一 下 函数 sort () 中 各 种 参数 的 使 用 方法 .如 需要 将 数据 
由 大 到 小 排 ， 则 用 参数 decreasing = TRUE. 如 








> sort(x, decreasing = TRUE) 
[1] 75.0 66.9 64.0 63.5 62.2 62.2 58.7 47.4 


当 数 据 中 有 缺失 数据 时 ， 并 不 希望 处 理 缺 失 数 据 ， 则 不 必 调 整 任何 参数 . 如 


> x.na <- c(75.0,64.0,47.4,NA,66.9,62.2,62.2,58.7,63.5) 
> sort(x.na) 


[1] 47.4 58.7 62.2 62.2 63.5 64.0 66.9 75.0 


如 果 和 希望 在 排序 后 的 数据 中 保留 缺失 数据 , 并 将 缺失 数据 排 在 最 后 , 则 用 na.1ast 
= TRUE. 如 果 将 缺失 数据 排 在 最 前 ， 则 用 na.last = FALSE. 如 


> sort(x.na, na.last = TRUE) 
[1] 47.4 58.7 62.2 62.2 63.5 64.0 66.9 75.0 NA 
> sort(x.na, na.last = FALSE) 
[1] NA 47.4 58.7 62.2 62.2 63.5 64.0 66.9 75.0 


与 sort() 函数 相关 的 函数 有 : ”order() 给 出 排序 后 的 下 标 ;，rank() 给 出 


样本 的 秩 统 计量 ， 关 于 rank() 函数 在 第 五 章 还 会 介绍 . 


3. 中 位 数 
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中 位 数 (median, 记 为 me) 定义 为 数据 排序 位 于 中 间 位 置 的 值 ， 即 
ea 当 n 为 奇数 时 ， 
me 二 41 
3 (z 四 +zgrD)， 当 n 为 偶数 时 . 

中 位 数 描述 数据 中 心 位 置 的 数字 特征 . 大 体 上 比 中 位 数 大 或 小 的 数据 个 数 为 
整个 数据 的 一 半 . 对 于 对 称 分 布 的 数据 ,均值 与 中 位 数 比 较 接 近 ， 对 于 偏 态 分 布 
的 数据 ,均值 与 中 位 数 不 同 .中 位 数 的 又 一 显著 特点 是 不 受 异 常 值 的 影响 ， 具 有 
稳健 性 ， 因 此 它 是 数据 分 析 中 相当 重要 的 统计 量 . 

在 R 软件 中 ， 函 数 median() 给 观测 量 的 中 位 数 .， 如 

> x <- c(75, 64, 47.4, 66.9, 62.2, 62.2,58.7,，63.5) 

> median(x) 

[1] 62.85 

median() 函数 的 使 用 格式 为 

median(x, na.rm = FALSE) 
其 中 x 是 数值 型 向 量 ， na.rm 是 逻辑 变量 ， 当 na.rm = TRUE 时 ,函数 可 以 处 理 
人 带 有 缺失 数据 的 向 量 ;否则 (na.rm = FALSE, 缺 省 值 ) 不 能 处 理 带 有 缺失 数据 的 
向量 .如 

> x.na <- c(75.0,64.0,47.4,NA,66.9,62.2,62.2,58.7,63.5) 

> median(x.na) 

[1] NA 

> median(x.na, na.rm = TRUE) 


[1] 62.85 


4. 百 分 位 数 


百 分 位 数 (percentile) 是 中 位 数 的 推广 ， 将 数据 按 从 小 到 大 的 排列 后 ， 对 于 
0 <p<1, 它 的 p 分 位 点 定义 为 


El 








| Z(npl+1)， 当 np 不 是 整数 时 ， 人 
Mp 一 1 i 
5 (Zoo 十 Zop+D) ) 当 Np 是 整数 时 ， 


其 中 [np| 表示 np 的 整数 部 分 . 
2 分 位 数 又 称 为 第 100p 百 分 位 数 . 大 体 上 整个 样本 的 100p 的 观测 值 不 超过 
2 分 位 数 . 如 0.5 分 位 数 mos( 第 50 百 分 位 数 ) 就 是 中 位 数 m。. 在 实际 计算 中 ， 
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0.75 分 位 数 与 0.25 分 位 数 (第 75 百 分 位 数 与 第 25 百 分 位 数 ) 比较 重要 ， 它 们 分 
别称 为 上 、 下 四 分 位 数 ， 并 分 别 记 为 Q3 = mo.75, Q1 = m0.25. 
在 及 软件 中 ，GaaatialegO 函数 计算 观测 量 的 百 分 位 数 ， 如 
> Ww <- c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2,，58.7，63.5, 
66.6, 64.0, 57.0, 69.0, 56.9,，50.0,，72.0) 
> quantile(w) 
0% 25% 50% 75% 100% 
47.40 57.85 63.50 66.75 75.00 


quantile() 子 数 的 一 般 使 用 格式 为 


quantile(x, probs = seq(0, 1, 0.25), na.rm = FALSE， 
names = TRUE, type = 7, ...) 


其 中 x 是 由 数值 构成 的 向 量 。 probs 是 给 出 相应 的 百 分 位 数 , 缺 省 时 是 0 、j、 
3、、1. na.rm 是 逻辑 变量 ， 当 na.rm = TRUE 时 ,可 处 理 缺 失 数 据 ， 其 余 见 





如 果 打 算 给 出 0%, 20%, 40%, 60%, 80%% 和 100% 的 百 分 位 数 ， 则 选择 
> quantile(w, probs = seq(0, 1, 0.2)) 
0% 20% 40% 60% 80% 100% 
47.40 56.98 62.20 64.00 67.32 75.00 


3.1.2 分散 程度 的 度量 


表示 数据 分 散 (或 变异 ) 程度 的 特征 量 有 方差 、 标准 差 、 极 差 、 四 分 位 极 差 、 
变异 系数 和 标准 误 等 . 

1. 方差 、 标 准 差 与 变异 系数 

方差 Iaiiance) 是 描述 数据 取 值 分 散 性 的 一 个 度量 样本 方差 (sample vari- 
ance) 是 样本 相对 于 均值 的 偏差 平方 和 的 平均 ， 记 为 2, 即 


(3.4) 
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样本 方差 的 开 方 称 为 样本 标准 差 (Standard deviati6n), 记 为 s, 即 




















(3.5) 
CV = 100 x =(%), (3.6) 
它 是 一 个 无 量 纲 的 量 ， 用 百分数 表示 . 
与 分 散 程度 有 关 的 统计 量 还 有 下 列 数字 特征 : 
样本 校正 平方 和 , 
CSS = 》 (2 一列 ”. (3.7) 
样本 未 校正 平方 和 
UBSeY (3.8) 


在 及 软件 中 , 若 x 是 由 样本 构成 的 向 量 ， 则 Var 计算 样本 方差 ，8a(z》 
计算 样本 标准 差 ， 即 sd(x) = Vvar(x). 例如 ， 对 于 15 名 学 生 的 体重 数据 ， 有 
> var(w) 
[1] 56.47257 
> sd(w) 
[1] 7.514823 


方差 函数 var() 和 标准 差 函 数 sd() 的 使 用 格式 为 





其 中 x 是 数值 条 矩阵 或 数据 框 ， na.rm 是 逻辑 变量 ,， 当 na.rm = TRUE 时 ， 
可 处 理 缺 失 数据 其余 见 帮助 . 

与 方差 函数 var() 相关 的 函数 还 有 : 【co 六- 求 协 方差 矩阵 oz 一 求 
相关 吞 阵 ， 这 两 个 函数 将 在 后 面 介绍 . 

对 于 变异 系数 、 校 正平 方 和 、 未 校正 平方 和 等 指标 ， 需 要 编写 简单 的 程序 . 
例如 ， 对 于 15 名 学 生 的 体重 数据 
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> cv <- 100*sd(w)/mean(w); cv 
[1] 12.05071 

> css <- sum((w-mean(w))“ 2); css 
[1] 790.616 

> uss <- sum(w 2); uss 


[1] 59122.16 
2. 极 差 与 标准 误 
样本 极 差 ( 记 为 R) 的 计算 公式 为 
R= Zz — x0) = max(z) — min(z), (3.9) 


其 中 zx 是 由 样本 构成 的 向 量 . 样本 极 差 是 描述 样本 分 散 性 的 数字 特征 . 当 数 据 越 
分 散 ， 其 极 差 越 大 . 
样本 上 、 下 四 分 位 数 之 差 称 为 四 分 位 差 (或 半 极 差 )， 记 为 局 , 即 
Ri = Q3 — 1, (3.10) 
它 也 是 度量 样本 分 散 性 的 重要 数字 特征 , 特别 对 于 具有 异常 值 的 数据 ， 它 作为 分 
散 性 具有 稳健 性 ， 因 此 它 在 稳健 性 数据 分 析 中 具有 重要 作用 . 
样本 标准 误 ( 记 为 sm) 定义 为 


有 (3.11) 





对 于 样本 极 差 与 样本 标准 误 ， 可 以 简单 编程 方法 计算 . 
3.1.3 ”分 布 形状 的 度量 


在 第 一 章 的 1.3.5 节 介 绍 过 总 体 的 侦 度 【Rewiiess) 系数 和 峰 度 (KUTtOSis) 系 
数 ， 这 里 介绍 样本 的 偏 度 系数 和 上 峰 度 系数 . 


1. 偏 度 系数 
样本 的 偏 度 系数 ( 记 为 而 ) 的 计算 公式 为 


~ 0 
gl (nC—1)(n— 2)s3 2 i—T) a (3.12) 
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其 中 * 是 标准 差 ， 1 是 样本 3 阶 中 心 矩 , 即 由 = 1 > 一 可 3 


偏 度 系数 是 刻 划 数据 的 对 称 性 指标 ， 关 于 均值 对 称 的 数据 其 偏 度 系数 为 0， 
右 侧 更 分 散 的 数据 偏 度 系数 为 正 ， 左 侧 更 分 散 的 数据 偏 度 系数 为 负 . 


2. 峰 度 系数 
样本 的 峰 度 系数 ( 记 为 更 的 计算 公式 为 


ND) 3 DD 
-i CD a A ee 

EE 0 A 

~ (m1)(n—2)(n— 3)s a (3.13) 


其 中 s 是 标准 差 ， 4 是 样本 4 阶 中 心 矩 , 即 J = 1 > (zi — TF). 


当 数 据 的 总 体 分 布 为 正 态 分 布 时 ， 峰 度 系数 近似 为 0; 当 分 布 较 正 态 分 布 的 
尾部 更 分 散 时 ， 峰 度 系 数 为 正 ， 否 则 为 负 .， 当 峰 度 系数 为 正 时 ， 两 侧 极端 数据 较 
; 当 峰 度 系数 为 负 时 ， 两 侧 极端 少 . 
最 后 编写 一 个 统计 的 函数 (程序 名 : ”data_out1line.R), 计算 样本 的 各 种 描 
述 性 统计 量 . 
data_outline <- function(x){ 
n <- length(x) 
m <- mean(x) 
V <- var(x) 
s <- sd(x) 
me <- median(x) 
cv <- 100*s/m 
css <- sum((x-m) “2) 
uss <- sum(x°2) 
R <- max(x)-min(x) 
R1 <- quantile(x,3/4)-quantile(x,1/4) 
sm <- s/sqrt(n) 
gL <- n/((n-1)*(n-2))*sum((x-m) “3)/s°3 
g2 <- ((n*(n+1))/((n-1)*(n-2)*(n-3))*sum( (x-m)“ 4)/s°4 
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- (3*(n-1)°2)/((n-2)*(n-3))) 
data.frame (N=n, Mean=m, Var=v, std_dev=s, 
Median=me, std_mean=sm, CV=cv, CSS=css, USS=uss, 
R=R, R1=R1, Skewness=gl, Kurtosis=g2, row.names=1) 


} 


函数 的 输入 变量 x 是 数值 型 向 量 ， 由 样本 构成 ,函数 的 返回 值 是 数据 框 ， 包 
含 以 下 指标 : XN 样本 的 个 数 ; Mean 样本 均值 ， Var 样本 方差 ， std_dev 样本 
标准 差 ， Median 样本 中 位 数 ， std_mean 样本 的 标准 误 ，CV 样本 的 变异 系数 ; 
CSS 样本 校正 平方 和 ; USS 样本 未 校正 平方 和 ;，R 样本 极 差 ; R1 样本 半 极 差 ， 
Skewness 样本 峰 度 系数 ; Kurtosis 样本 偏 度 系 数 . 


例 3.2 计算 例 3.1 中 15 位 学 生 的 体重 的 各 种 统计 量 . 


解 : 将 编 好 的 程序 调 入 内 存 ( 见 第 二 章 中 输入 R 代码 )， 输 入 数据 并 计算 得 
到 相应 的 结 


> source('"data_outline.BR') 
> W<- c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2,，58.7，63.5, 
66.6，64.0，57.0，69.0，56.9，50.0，72.0) 


> data_out1line(w) 


N Mean Var std_dev Median std_mean CV 
1 15 62.36 56.47257 7.514823 63.5 1.940319 12.05071 
CSS USS R RI1 Skewness Kurtosis 


1 790.616 59122.16 27.6 8.9 -0.4299561 0.09653947 
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数据 的 数字 特征 刻 划 了 数据 的 主要 特征 , 而 要 对 数据 的 总 体 情况 作 全 面 的 描 
述 ， 就 要 研究 数据 的 分 布 . 对 数据 分 布 的 主要 描述 方法 有 直方 图 、 荃 叶 图 和 数据 
的 理论 分 布 即 总 体 分 布 . 数据 分 析 的 一 个 重要 问题 是 要 研究 数据 是 否 来 自 正 态 总 
体 ， 这 是 分 布 的 正 态 性 检验 的 问题 . 
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3.2.1 分布 范 数 
在 第 一 章 给 出 了 分 布 函数 (x) 的 定义 (定义 1.5) 、 分 布 律 (定义 1.7), 即 
P{X = zxr} = px, k= 1,2,.…, 


和 概率 密度 函数 f(x) 的 定义 (定义 1.8), 以 及 概率 密度 函数 f(z) 与 分 布 函 数 
F(z) 的 关系 


Fa = PCX< 可 = 人 f(t)dt, 一 co <0 < oo 





并 给 出 了 一 些 典 型 的 分 布 ， 如 正 态 分 布 、 Poisson 分 布 等 . 

在 及 软件 中 ， 提 供 了 计算 这 些 典 型 分 布 的 分 布 函 数 、 分 布 律 或 概率 密度 函 
数 ， 以 及 分 布 函 数 的 反 函 数 的 各 种 函数 . 

例如 ,考虑 正 态 分 布 ， 设 / 是 均值 ，o? 是 方差 .对 于 任意 的 变量 x, 其 分 布 











wo- - 寺 ; 人 cp 人 -全 分 dt -pro si 
其 中 函数 5 是 R 软件 中 计算 分 布 函数 ( 正 态 分 布 ) 的 函数 ， mu 是 均值 /， 
sigma 是 标准 差 o. 相应 的 概率 密度 函数 为 
f(r) = 人 2 人 = dnorn(x, mu, signa), 
中 国 数 ma6 于 是 R 软件 中 计算 概率 密度 函数 ( 正 态 分 布 ) 的 函数 . 
计算 标准 正 态 分 布 的 上 a/2 (a = 0.05) 分 位 点 ， 其 计算 公式 为 
2a/2 = dnorm(1-0.025, 0,1) = 1.959964. 
其 中 函数 G57w 是 R 软件 中 计算 下 分 位 点 的 函数 . 
产生 100 个 标准 正 态 态 分 布 的 随机 数 
r <- rnorm(100, 0, 1) 


中 浮 数 Fn67W 是 R 软件 中 生成 ( 正 态 分 布 ) 随机 数 的 函数 ， 参 数 0，1 可 以 缺 
省 . 


270 








yp 


关于 正 态 分 布 函数 dnorm() 、pnorm() 、 qnorm() 和 rnorm() 的 使 用 方法 


是 
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dnorm(x, mean=0, sd=1, log = FALSE) 
pnorm(d, mean=0, sd=1, lower.tail = TRUE, log.p = FALSE) 


qnorm(p, mean=0, sd=1, lower.tail = TRUE, log.p = FALSE) 


rnorm(n, mean=0, sd=1) 

其 中 x,q 是 由 数值 型 变量 构成 的 向 量 . p 是 由 概率 构成 的 向 量 .， mn 是 产生 随 
机 数 的 个 数 . mean 是 要 计算 的 正 态 分 布 的 均值 ， 缺 省 值 为 0. sd 是 要 计算 的 正 
态 分 布 的 标准 差 ， 缺 省 值 为 1. 函数 dnorm() 的 返回 值 是 正 态 分 布 的 概率 密度 函 
数 . 函数 pnorm() 的 返回 值 是 正 态 分 布 的 分 布 函数 .函数 qnorm() 的 返回 值 是 
给 定 概 率 p 后 的 下 分 位 点 .函数 rnorm() 的 返回 值 是 由 n 个 正 态 分 布 随机 数 构 
成 的 向 量 . 

log，1og.p 是 逻辑 变量 ， 当 它 为 真 (TRUE) 时 ， 函 数 的 返回 值 不 再 是 正 态 分 
布 , 而 是 对 数 正 态 分 布 ， lower .tail 是 逻辑 变量 , 当 它 为 真 (TRUE, 缺 省 值 ) 时 ， 
分 布 函 数 的 计算 公式 为 





F(z) = P{X < 7}, 
当 lower.tail = FALSE 时 ， 分 布 函 数 的 计算 公式 为 
F(z) = P{X > 7}. 
再 看 一 个 离散 随机 变量 计算 函数 的 例子 ， 如 Poiss6 分布， Poisson 分 布 的 
使 用 格式 为 


dpois(x, lambda, log = FALSE) 
ppois(q, lambda, lower.tail = TRUE, log.p = FALSE) 


qpois(p, lambda, lower.tail = TRUE, log.p = FALSE) 





rpois(n, lambda) 
其 中 lambda 是 Poisson 分 布 的 参数 入. 其 余 参数 的 意义 与 上 面 介绍 的 函数 ( 正 态 
分 布 ) 中 参数 的 意义 相同 . 

注意 ， 由 于 Poisson 分 布 是 离散 分 布 ， 当 x 是 整数 上 时， 其 意义 为 
和 Xe 
Kk! 

当 x 不 是 整数 时 ， dpois (x，lambda)=0. 对 于 函数 ppois(), 无 论 x 是 否 为 整 
数 ， 其 意义 为 


P{X =k} = 





= dpois(k, lambda), 


和 Xe 一、 
F(z) = 1 = Ppois(x, lambda). 
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给 定 概 率 p, qpois(p，lambda) 的 返回 值 是 P{X = 有} > p 的 最 小 的 整数 . 
其 他 的 分 布 函数 也 有 类 似 的 结果 . 表 3.1 列 出 了 各 种 常用 的 分 布 函数 ， 概 率 
密度 函数 或 分 布 律 ， 以 及 R 中 的 名 称 和 调用 函数 用 到 的 参数 . 


表 3.1: 分 布 函 数 或 分 布 律 
分 布 R 中 的 名 称 附加 参数 


beta shapel, shape2, ncp 
binomial size, prob 
Cauchy location, scale 
chi-squared df ncp 
exponential rate 

F f df1, df2, ncp 
gamma gamma shape, scale 
geometric geom prob 
hypergeometric hyper m, n, k 
log-normal Inorm meanlog, sdlog 
logistic logis location, scale 
negative binomial nbinom size, prob 
normal norm mean, sd 
Poisson pois lambda 
Student’s t t df ncp 
Uniform unif min, max 
Weibull weibull shape, scale 
Wilcoxon wilcox m,n 








在 表 3.1 所 列 的 分 布 中 ， 加 上 不 同 的 前 级 表示 不 同 的 意义 ， 
。 一 概率 密度 函数 (zx), 或 分 布 律 px; 
。 加 一 分 布 函数 P(x); 
。 加 一 分 布 函数 的 反 函 数 FP-(p), 即 给 定 概率 p 后 ， 求 其 下 分 位 点 ; 
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。 了 四 一 仿真 (产生 相同 分 布 的 随机 数 ) 


3.2.2 ”直方 图 、 经 验 分 布 图 与 QQ 图 
1. 直方 图 


对 于 数据 分 布 ， 稼 用 直方 图 (iistogaa) 进行 描述 ， 将 数据 取 值 的 范围 分 成 
知 干 区 间 (一 般 是 等 间隔 的 ), 在 等 间隔 的 情况 下 ， 每 个 区 间 长 度 称 为 组 距 . 考察 
数据 落 入 每 一 区 间 的 频数 与 频率 ,在 每 个 区 间 上 画 一 个 矩形 , 它 的 宽度 是 组 距 ， 
它 的 高 度 可 以 是 频数 、 频 率 或 频率 / 组 距 , 在 高 度 是 频率 / 组 距 的 情况 下 ， 每 一 
和 矩形 的 面积 恰 是 数据 落 入 区 间 的 频率 , 这 种 直方 图 可 以 佑 计 总 体 的 概率 密度. 组 
距 对 直方 图 的 形态 有 很 大 的 有 影响， 组 距 太 小 ,每 组 的 频数 较 少 ， 由 于 随机 性 的 影 
响 ， 邻 近 区 间 上 的 频数 可 能 很 大 ， 组 距 太 大 ， 直 方 图 所 反映 的 形态 就 不 灵敏 . 

在 及 软件 中 ， 用 函数 喇 枉 人 画 出 样本 的 直方 图 其 格式 为 


hist (x) 





hist(x, breaks = "Sturges", freq = NULL, probability = !freq， 


include.lowest = TRUE, right = TRUE， 

density = NULL, angle = 45, col = NULL, border = NULL, 

main = paste("Histogram of'" , xname), 

xlim = range(breaks), ylim = NULL, 

xlab = xname, ylab, 

axes = TRUE, plot = TRUE, labels = FALSE, 

nclass = NULL, ...) 
其 中 x 是 由 样本 构成 的 向 量 . 人 sakg 规定 直方 图 的 组 距 ， 由 以 下 几 种 形式 给 
出 : 





。 向 量 ， 给 出 直方 图 的 起 点 、 终 点 与 组 距 . 

。 数 ， 定 义 直方 图 的 组 距 . 

。 字符 串 ，( 见 缺 省 状态 ). 

。 函数 ， 计 算 组 距 的 宽度 . 
Ered 是 逻辑 变量 : 

。TRUE 绘 出 频率 直方 图 ; 
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e。 counts 绘 出 频率 直方 图 ; 
e FALSE 绘 出 密度 直方 图 
三 cbabilit 让 是 逻辑 变量 与 freq 相反 ， 是 与 S-PLUS 相 兼容 的 参数 ， 
。TRUE 绘 出 密度 直方 图 ; 
。 FALSE 绘 出 频率 直方 图 
C63 表示 直方 图 中 填充 的 颜色 . 全 6 昌 是 逻辑 变量 ; 
。TRUE 表示 给 出 直方 图 ; 
。FALSE 表示 列 出 绘 出 直方 图 的 各 种 结果 ( 并 不 绘图 ). 
其 它 参 数 见 帮助 文件 . 


2. 核 密度 估计 函数 


与 直方 图 相配 套 的 是 核 密度 估计 (Kernal density estimate) 函数 Quenasit7()》 
其 目的 是 用 已 知 样本 ， 估 计 其 密度 ， 它 的 使 用 方法 是 : 


density(x, bw = "nrd0", adjust = 1, 


kernel = c("gaussian", "epanechnikov", "rectangular", 


"triangular", "biweight", "cosine", "optcosine"), 
window = kernel, width, 
give.Rkern = FALSE, 
n = 512, from, to, cut = 3, na.rm = FALSE) 
其 中 x 是 由 样本 构成 的 向 量 ， bw 是 带宽 ， 可 选择 . 当 bw 为 省 略 值 时 ，R 软件 
会 画 出 光滑 的 曲线 ， 其 它 参 数 见 帮助 文件 . 
例 3.3 绘 出 例 3.1 中 15 位 学 生 的 体重 的 直方 图 和 核 密度 估计 图 ， 并 与 正 态 分 布 
的 概率 密度 函数 作对 照 . 
解 : 写 出 及 程序 (程序 名 : ”exam0303.R ) 
W <- c(75.0，64.0，47.4，66.9，62.2，62.2，58.7，63.5， 
66.6，64.0，57.0，69.0，56.9，50.0，72.0) 
hist(w, freq = FALSE) 
lines(density(w), col = "blue") 
X <- 44:76 





lines(x, dnorm(x, mean(Ww), sd(w)), col = "red") 


执行 后 绘 出 直方 图 和 密度 估计 曲线 和 正 态 分 布 的 概率 密度 曲线 ， 如 图 3.1 所 示 . 
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图 3.1: 学 生体 重 的 直方 图 、 蜜 度 佑 计 曲 线 与 正 态 分 布 密度 曲线 





注意 到 ， 窗 度 佑 计 曲线 与 正 态 分 布 的 概率 密度 曲线 还 是 有 一 定 的 差别 的 . 
结合 直方 图 和 和 密度 估计 曲线 来 进一步 分 析 例 3.2 中 统计 量 的 意义 . 如 偏 度 小 
于 0, 直方 图 偏 右 等 . 


3. 经 验 分 布 





直方 图 的 制作 适合 于 总 体 为 连续 型 分 布 的 场合 . 对 于 一 般 的 总 体 分 布 ， 若 要 
估计 它 的 总 体 分 布 函数 F(z), 可 用 经 验 分 布 函数 (Smpirical distribution function) 
作 估计， 在 第 一 章 的 1.5.3 节 给 出 了 经 验 分 布 的 定义 ( 见 式 (1.87)), 在 R 中 ,用 
函数 EcdfO 绘 出 样本 的 经 验 分 布 函数 ， 其 用 法 是 ; 

ecdf (x) 
plot(x, ..., ylab="Fn(x)", verticals = FALSE， 





col.0iline = "gray70") 
其 中 , 在 函数 ecdf () 中 的 x 是 由 观察 值得 到 的 数值 型 呵 量 , 而 在 函数 plot () 中 的 
x 是 由 函数 ecdf () 生成 的 向 量 .， verticals 是 逻辑 变量 , 当 verticals = TRUE 
表示 画 竖 线 ， 否 则 (FALSE, 缺 省 值 ) 不 画 坚 线 . 
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例 3.4 绘 出 例 3.1 中 15 位 学 生 的 体重 的 经 难 分 布 图 和 相应 的 正 态 分 布 图 . 

解 : 写 出 R 程序 ( 程序 名 :exam0304.R ) 

plot(ecdf (w) ,verticals = TRUE, do.p = FALSE) 

X <- 44:78 

lines(x, pnorm(x, mean(w), sd(w))) 
其 中 do.p 是 逻辑 变量 ， 当 do.p = FALSE 表示 不 画 点 处 的 记号 ; 否则 (TRUE, 缺 
省 值 ) 画 记 号 . 

执行 后 绘 出 经 验 分 布 图 和 正 态 分 布 曲线 ， 如 图 3.2 所 示 . 
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图 3.2: 学 生体 重 的 经 验 分 布 图 和 正 态 分 布 曲线 


4. QQ 

不 论 是 直方 图 还 经 验 分 布 图 , 要 从 比较 上 鉴别 样本 是 否 近 似 于 某 种 类 型 的 分 
布 是 困难 的 ，QQ 图 可 以 帮助 我 们 鉴别 样本 的 分 布 是 否 近 似 于 某 种 类 型 的 分 布 . 

现 假定 总 体 为 正 态 分 布 N(1,o”), 对 于 样本 zi,z?，……,zn 其 顺序 统计 量 是 
zzZo0 2 设 B(z) 是 标准 正 态 分 布 N(0,1) 的 分 布 函数 ，B-1(x) 是 反 函 
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(3.14) 





构成 的 散 点 图 若 样本 数据 近似 于 正 态 分 布 ， 在 QQ 图 上 这 些 点 近似 地 在 直线 
一 OZ 十 内 


附近 ， 此 直线 的 斜率 是 标准 差 o, 截 距 是 均值 4/, 所 以 利用 正 态 QQ 图 可 以 作 直 
观 的 正 态 性 检验 . 若 正 态 QQ 图 上 的 点 近似 地 在 一 条 直线 附近 ,可 以 认为 样本 数 
据 来 自 正 态 分 布 总 体 . 
在 RR 软件 中 ， 函数 gqnorm() 和 (ggline() 提供 了 画 正 态 QQ 图 和 相应 直线 
的 方法 ， 其 使 用 方法 是 : 
qqnorm(y, ...) 
qqnorm(y, ylim, main = "Normal Q-Q Plot", 
xlab = "Theoretical Quantiles", 
ylab = "Sample Quantiles", plot.it = TRUE, 
datax = FALSE, ...) 
qqline(y, datax = FALSE, ...) 


qqplot (x, y, plot.it = TRUE, xlab = deparse(substitute(x)), 


ylab = deparse(substitute(y)), ...) 

其 中 x 是 第 一 列 样本 . y 是 第 二 列 样本 或 只 有 此 列 样本 . xlab, ylab, main 
是 图 标 . 其它 参数 见 帮 助 文件 . 
例 3.5 绘 出 例 3.1 中 15 位 学 生 的 体重 的 正 态 QQ 图 ， 并 从 直观 上 鉴别 样本 数据 
是 否 来 自 正 术 分 布 总 体 . 

解 : 写 出 R 程序 (程序 名 ;exam0305.R ) 

W <- c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7，63.5, 

66.6, 64.0, 57.0, 69.0, 56.9,，50.0,，72.0) 

qqnorm(w); qqline(w) 
执行 后 绘 出 正 态 QQ 图 ， 如 图 3.3 所 示 . 

从 正 态 QQ 图 (图 3.3 ) 来 看 ， 样 本 的 数据 基本 上 可 以 看 成 来 自 正 态 总 体 . 

对 于 对 数 正 态 、 指 数 等 分 布 也 可 以 作 相应 的 QQ 图 , 用 以 鉴别 样本 数据 是 否 
来 自 某 一 类 型 的 总 体 分 布 . 
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Normal Q-Q Plot 





Sample Quantiles 














Theoretical Quantiles 


图 3.3: 学 生体 重 的 正 态 QQ 图 
3.2.3 ” 莹 叶 图 、 箱 线 图 及 五 数 总 括 


1. 蔡 叶 图 
与 直方 图 比较 ， 荃 叶 图 更 能 细致 地 看 出 数据 分 布 的 结构 . 下 面 用 具体 的 例子 
来 说 明 蕉 叶 图 的 意义 . 
例 3.6 某 班 有 31 名 学 生 ， 某 门 课 的 考试 成 绩 如 下 : 
25 45 50 54 55 61 64 68 72 75 75 
78 79 81 83 84 84 84 85 86 86 86 
87 89 89 89 90 91 91 92 100 
做 出 其 茎 叶 图 ， 
解 : 在 R 软件 中 ， 用 Bt6mQ) 函数 作 蔡 叶 图 ， 其 命令 (程序 名 : exam0306 .BR) 
如 下 
> x<-c(25, 45, 50, 54, 55, 61, 64, 68, 72, 75, 75, 
78, 79, 81, 83, 84, 84, 84, 85, 86, 86, 86, 
387, 89, 89, 89, 90, 91, 91, 92,100) 


3.2 数据 的 分 布 145 


> Stem(X) 
The decimal point is 1 digit(s) to the right of the | 
215 
3 | 
415 
5 | 045 
6 | 148 
7 | 25589 
8 | 1344456667999 
9 | 0112 
10 | 0 


下 面 对 荃 叶 图 给 出 相应 的 解释 . 
第 一 个 数 25 的 十 位 为 2, 个 位 为 5. 以 个 位 为 单位 ， 将 25 用 | 号 分 开 : 
25 一 215 
每 一 个 数 都 可 以 这 样 处 理 ， 因 此 ， 茎 叶 图 将 十 位 数 2,3,4,5,6,7,8,9,10 按 纵 列 从 上 
到 下 排列 ,在 纵 列 右 侧 从 上 到 下 画 一 坚 线 ， 再 在 坚 线 右 侧 写 上 原始 数据 的 相应 的 
个 们 数 ， 例 如， 在 十 位 数 5 的 坚 线 右 侧 依次 应 是 0,4,5, 即 
5 | 045 

它们 分 别 对 应 着 50, 54, 55 这 三 个 数据 .又 如 在 十 位 数 3 的 坚 线 的 右 侧 ， 因 为 从 
原始 数据 看 ， 没 有 对 应 的 数据 可 填 ， 可 以 空 着 . 

在 荃 叶 图 中 ， 纵 轴 为 测定 数据 ， 横 轴 为 数据 频数 .数据 的 十 位 数 部 分 表示 
“ 蕉 ， 作 为 纵 轴 的 刻度 ;个 位 数 部 分 作为 “ 叶 ”“, 显示 频数 的 个 数 ， 作 用 与 直方 图 
的 直方 类 似 . 

SEEeag 函数 的 使 用 方法 是 : 

stem(x, scale = 1, width = 80, atom = 1e-08) 
其 中 x 是 数据 向 量 . ”scale 控制 绘 出 茎 叶 图 的 长 度 ， width 绘图 的 宽度 . 
atom 是 容 差 . 

如 果 选 择 scale = 2, 即将 10 个 个 位 数 分 成 两 段 ，0 ~ 4 为 一 段 ，5 ~ 9 为 

另 一 段 ， 看 下 面 的 计算 结果 


> stem(x, scale = 2) 
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The decimal point is 1 digit(s) to the right of the | 


2 | 5 

3 | 

3 | 

4 | 

415 

5 | 04 

5 | 5 

6 | 14 

6 | 8 

7 | 2 

7 | 5589 

8 | 13444 

8 | 56667999 

9 | 0112 

9 | 

10 | 0 

如 果 选 择 scale = 1/2, 即将 10 个 个 位 数 分 成 1/2 段 ， 即 20 个 数 为 一 段 ， 如 
> stem(x, scale = .5) 

The decimal point is 1 digit(s) to the right of the | 
215 

4 | 5045 

6 | 14825589 

8 | 13444566679990112 

10 | 0 

例 3.7 绘 出 例 3.1 中 15 位 学 生 的 体重 的 茎 叶 图 . 
解 ， 
> stem(w) 

The decimal point is 1 digit(s) to the right of the | 
4 17 


5 | 0779 
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6 | 22444779 

7 | 25 
注意 到 : 为 了 使 数据 分 析 简 化 ， 将 原始 数据 小 数 点 后 数值 四 舍 五 入 . 
2. 箱 线 图 


茎 叶 图 是 探索 性 数据 分 析 所 采用 的 重要 方法 . 而 箱 线 图 确 能 直观 简洁 地 展现 
数据 分 布 的 主要 特征 .在 R 软件 中 ， 用 56 下 165( 站 函数 作 箱 线 图 . 
例 3.8 绘 出 例 3.6 学 生 考 试 成 绩 的 箱 线 图 . 
解 : 输入 命令 
> boxplot (x) 
得 到 箱 线 图 ， 如 图 3.4 所 示 . 





100 
| 














好 











图 3.4: 学 生成 绩 的 箱 线 图 





在 箱 线 图 中 , 中 (8Q 引 RQ 四 分 位 数 分 别 确定 


中 间 的 粗 线 是 中 位 数 (而 引 所 在 的 位 置 . 击 箱 体 向 上 下 律 出 的 垂直 部 分 称 为 
| At 最 远 点 为 超出 此 范围 的 点 
称 》 
数 的 便 用 方 第 一 种 冤 式 ) 







常 值 点 用 “o” 号 表示 . 
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其 中 x 是 由 数据 构成 的 数值 型 向 量 ， 或 者 是 列表 ， 或 者 是 数据 框 . 上 面 例子 的 使 
用 方法 就 是 这 种 形式 ， 第 二 种 形式 为 
boxplot (formula, data = NULL, ..., subset, na.action = NULL) 


其 中 formula 是 公式 , 如 y ”grp, 这 里 y 是 由 数据 构成 的 数值 型 向 量 ， grp 是 
数据 的 分 组 ， 通 常 是 因子 . ”data 是 数据 结构 .第 三 种 形式 为 
boxplot(x, ..., range = 1.5, width = NULL, varwidth = FALSE, 


notch = FALSE, outline = TRUE, names, plot = TRUE， 





border = par("fg"), col = NULL, log = 


pars = list(boxwex = 0.8, staplewex 0.5, outwex = 0.5), 


horizontal = FALSE, add = FALSE, at NULL) 


其 中 x 的 意义 与 第 一 种 情况 相同 . range 是 “触须 ” 的 范围 ( 缺 省 值 为 1.5). notch 
是 逻辑 变量 ， 当 notch = TRUE( 缺 省 值 为 FALSE) 时 ， 画 出 的 箱 线 图 带 有 切口 . 
outline 是 逻辑 变量 ， 当 outline = FALSE( 缺 省 值 为 TRUE) 时 ， 不 标明 异常 值 
点 . col 是 颜色 变量 ， 赋 给 不 同 的 值 ， 将 绘 出 不 同 颜色 的 箱 线 图 .horizontal 
是 逻辑 变量 ， 当 horizontal = TRUE( 缺 省 值 为 FALSE) 时 , 将 把 箱 线 图 绘 成 水 平 
状 . add 是 逻辑 变量 ， 当 add = TRUE 时 , 在原 图 上 画图 ; 否则 (FALSE, 缺 省 值 ) 
蔡 换 上 一 张 图 ， 其 余 参 数 的 意义 在 线 帮 助 文件 . 

可 以 用 boxplot() 函数 作 两 样本 的 均值 检验 , 考查 两 样本 的 均值 是 否 相 同 . 
例 3.9 已 知 由 两 种 方法 得 到 如 下 数据 : 

Method A: 79.98 80.04 80.02 80.04 80.03 80.03 80.04 79.97 


80.05 80.03 80.02 80.00 80.02 
Method B: 80.02 79.94 79.98 79.97 79.97 80.03 79.95 79.97 


问 两 组 数据 的 均值 是 否 相 同 ? 
解 : 输入 数据 ， 调 用 boxplot () 函数 (程序 名 exam0309 .BR) 画 出 两 组 数据 
的 箱 线 图 ， 
A <- c(79.98，80.04，80.02，80.04，80.03，80.03，80.04， 
79.97，80.05，80.03，80.02，80.00，80.02) 
B <- c(80.02，79.94，79.98，79.97，79.97，80.03，79.95， 


79.97) 
boxplot (A, B, notch=T, names=c(’A’, ’B’), col=c(2,3)) 
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1 
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79.94 79.96 79.98 80.00 80.02 80.04 





A B 


图 3.5: 两 组 数据 的 箱 线 图 


得 到 箱 线 图 ， 如 图 3.5 所 示 . 

从 图 形 可 以 看 出 ， 两 组 数据 的 均值 是 不 相同 的 ， 第 一 组 值 高 于 第 二 组 . 我 们 
将 第 五 章 将 给 出 两 样本 均值 检验 的 统计 方法 . 

注意 到 : 由 于 使 用 了 参数 notch = T, 画 出 的 箱 线 图 带 有 切口 . col = c(2,3)， 
所 以 关于 A 的 箱 线 图 是 红色 (2 表示 红色 ), 关于 B 的 箱 线 图 是 绿色 〈3 表示 红 
绿 ), 也 可 以 将 参数 写成 col = cC(’red’，’green’). 

在 R 软件 中 ， InsectSprays 是 R 提供 的 数据 框 ， 它 是 由 两 列 数据 构成 ， 
一 列 叫 count,， 由 数据 构成 ， 另 一 叫 spray, 由 因子 构成 ,共有 A, B, C, D, 也， 
F 六 个 水 平 . 现 画 出 数据 count 在 这 六 个 水 平 下 的 箱 线 图 ， 其 命令 (程序 名 ， 
figure0306.R) 如 下 : 


boxplot (count spray, data = InsectSprays, 


col = "lightgray") 


boxplot (count spray, data = InsectSprays, 


notch = TRUE, col = 2:7, add = TRUE) 
第 一 个 命令 是 画 出 矩形 的 箱 线 图 , 而 且 图 中 的 颜色 是 青 灰色 (col="lightgray"). 
第 二 个 命令 表示 画 出 的 箱 线 图 带 有 切口 (notch = TRUE), 而 且 每 一 个 箱 线 图 用 一 
种 颜色 (col = 2:7) 画 出 ,并 将 这 次 画 的 图 又 加 到 上 一 张 图 上 (add = TRUE), 其 
图 形 如 图 3.6 所 示 . 
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图 3.6: 不 同 参数 下 箱 线 图 的 县 加 


由 上 述 例子 可 以 看 出 ， 各 种 画 箱 线 图 的 绘图 方法 可 以 混合 使 用 . 
3. 五 数 总 括 
在 探索 性 数据 分 析 中 , 认为 最 有 代表 性 的 、 能 反映 数据 重要 特征 的 五 个 数 : 
中 位 数 me 下 四 分 位 数 Q1,， 上 四 分 位 数 Qs, 最 小 值 min 和 最 大 值 max. 这 五 个 
数 称 为 样本 数据 的 五 数 总 括 . 
在 RR 软件 中 ， 函 数 Veniam() 计算 样本 的 五 数 总 括 ， 使 用 格式 为 
fivenum(x, na.rm = TRUE) 
其 中 x 是 样本 数据 ，na.rm 是 逻辑 变量 ， 当 na.rm = TRUE( 缺 省 值 ) 时 ， 在 计算 
五 数 总 括 之 前 ， 所 有 的 NA 和 NAN 数据 将 被 去 掉 ， 
例 3.10 求 例 3.6 学 生 考试 成 绩 的 五 数 总 括 . 
解 : (程序 名 : exam0310 .BR) 
> x<-c(25, 45, 50, 54, 55, 61, 64, 68, 72, 75, 75, 
78, 79, 81, 83, 84, 84, 84, 85, 86, 86,，86, 
87，89，89，89，90，91，91，92，100) 
> fivenum(x) 


[1] 25 70 84 88 100 
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3.2.4 ” 正 态 性 检验 与 分 布 拟 合 检验 


上 面 介绍 的 荃 叶 图 、 箱 线 图 等 对 随机 性 、 确 定性 的 数据 都 有 用 ， 其 特点 是 图 
像 生动 直观 . 在 直方 图 、 经 验 分 布 函数 介绍 中 ， 曾 提 到 在 总 体 存 在 某 种 类 型 的 分 
布 时 ， 配 一 条 合适 的 总 体 概 率 密度 曲线 或 总 体 分 布 函数 曲线 然而， 所 配 曲 线 是 
和 否 合适 ， 是 需要 进行 统计 检验 的 , 有 关 的 统计 检验 方法 将 在 第 五 章 中 介绍 ， 这 里 
只 简单 介绍 两 种 检验 方法 , 一 种 方法 是 关于 正 态 分 布 的 检验 ， 另 一 种 方法 是 关于 
1. 正 态 性 W 检验 方法 
利用 Shapiro-Wilk ( 夏 皮 罗 - 威 尔 克 ) W 统计 量 作 正 态 性 检验 ,因此 称 这 种 
检验 方法 为 正 态 W 检验 方法 . 
在 R 软件 中 ,函数 shapiro.test() 提供 W 统计 量 和 相应 的 bp 值 ， 当 p 值 
小 于 某 个 显著 性 水 平 aq( 比 如 0.05), 则 认为 样本 为 不 是 来 自 正 态 分 布 的 总 体 ;和 否 
则 承认 样本 来 自 正 态 分 布 的 总 体 . 
函数 shapiro.test() 的 使 用 格式 为 
shapiro.test (x) 
其 中 x 是 由 数据 构成 的 向 量 ， 并 且 向 量 的 长 度 在 3 至 5000 之 间 . 
对 于 例 3.1 中 15 位 学 生 的 体重 数据 ， 
> Ww <- c(75.0，64.0，47.4，66.9，62.2，62.2，58.7，63.5， 
66.6，64.0，57.0，69.0，56.9，50.0，72.0) 


> shapiro.test(w) 














Shapiro-Wilk normality test 
data: Vw 


W = 0.9686, p-value = 0.8371 


2 值 为 0.8371 > 0.05, 因此 ， 认 为 来 自 正 态 分 布 的 总 体 ， 与 QQ 图 得 到 的 结 
论 相 同 ， 又 如 
> shapiro.test(runif(100, min = 2, max = 4)) 
Shapiro-Wilk normality test 
data: runif(100, min = 2, max = 4) 


W = 0.9493, p-value = 0.0007515 
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2 值 为 0.0007515 < 0.05, 认为 样本 不 是 来 自 正 态 分 布 的 总 体 . 当然 ， 这 是 来 自 均 
匀 分 布 的 随机 数 . 

2. 经 验 分 布 的 Kolmogorov-Smirnov 检验 方法 

经 验 分 布 函数 后 ,(7) 是 总 体 分 布 函数 (7) 的 估计 . 经 验 分 布 拟 合 检验 的 方法 
是 检验 经 验 分 布 Etz) 与 假设 的 总 体 分 布 函数 Fo(z) 之 间 的 差异 . Kolmogorov- 
Smirnov ( 科 尔 莫 戈 罗 夫 - 斯 米尔 详 夫 ) 统计 量 是 计算 所 (zx) 与 Fo(z) 的 距离 D， 
即 

D= sup |F(z)— Fo(z)|. (3.15) 


—00<ZX<0o0 


在 R 软件 中 ， 也 数 ks .test() 给 出 了 Kolmogorov-Smirnov 检验 方法 ， 其 
使 用 方法 是 : 
ks.test(x, y, ..., 
alternative = c('"two.sided", "less", "greater'"), 
exact = NULL) 
其 中 x 是 待 检测 的 样本 构成 的 向 量 ， y 是 原 假设 的 数据 向 量 或 是 描述 原 假设 的 
字符 串 . 
例如 ， 
> x<-rt(100,5) 
> ks.test(x, "pf",2,5) 
One-sample Kolmogorov-Smirnov test 
data: Xx 
D = 0.5596, p-value < 2.2e-16 
alternative hypothesis: two.sided 
因为 x 是 来 自 ts 的 随机 数 ， 对 x 作 Fs 检验 ( 即 认 为 是 来 自 总 体 是 自由 度 
为 (2,5) 的 下 分 布 )， 其 结果 是 拒绝 的 ， 即 不 认为 x 服从 Fs 的 分 布 . 
有 关 数 据 分 布 的 检验 ， 将 在 第 五 章 有 详细 的 介绍 . 





3.3 有 软件 中 的 绘图 命令 


在 前 面 介绍 的 数据 描述 性 分 析 中 ,数据 作 图 是 数据 分 析 的 重要 方法 之 一 ， 
此 ,利用 绘图 的 方法 研究 已 知 数据 ， 是 一 种 直观 、 有 效 的 方法 . 这 里 将 介绍 及 软 
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件 中 ， 一 些 数据 作 图 的 基本 方法 . 

在 作 图 函数 中 ， 有 二 类 作 图 函数 ， 一 类 是 高 水 平 作 图 函数 ， 另 一 类 是 低 水 平 
作 图 函数 . 所 谓 高 水 平 作 图 函数 ， 是 与 低 水 平 的 作 图 函数 相对 应 的 ， 即 所 有 的 绘 
图 函数 均 可 产生 图 形 ， 可 以 有 坐标 轴 ， 以 及 图 和 坐标 轴 的 说 明文 字 等 . 所 谓 低 水 
平 作 图 函数 是 自身 无 法 生成 图 形 , 只 能 在 高 水 平 作 图 函数 产生 的 图 形 的 基础 上 ， 
增加 新 的 图 形 . 








3.3.1 ”高 水 平 绘图 函数 


高 水 平 作 图 函数 有 : plot() 、 pairs() 、 coplot() 、 qqnorm() 、 
qqline() 、 hist() 和 contour() 等 . 

1. plot() 函数 

函数 plot () 可 绘 出 数据 的 散 点 图 、 曲 线 图 等 ， plot() 函数 有 以 下 四 种 使 
用 方法 . 
(1) plot (x, y) 
其 中 x 和 y 是 向 量 ， 生 成 y 关于 x 的 散 点 图 . 例如 ， 第 二 章 中 的 例 2.2 就 是 这 种 
使 用 方法 . 
(2) plot (x) 
其 中 x 是 一 时 间 序 列 ， 生 成 时 间 序 列 图 形 . 如 果 x 是 向 量 , 则 产生 x 关于 下 标的 
散 点 图 ， 如 果 x 是 复 向 量 ， 则 绘 出 复数 的 实 部 与 虚 部 的 散 点 图 ， 第 二 章 的 2.2.6 
节 介 绍 了 复数 绘图 的 情况 . 
(3) plot (f) 

plot (f, y) 

其 中 f 是 因子 ，y 是 数值 向 量 . 第 一 种 格式 生成 £ 的 直方 图 ， 第 二 种 格式 生成 
y 关于 f 水 平 的 箱 线 图 . 
例 3.11 利用 四 种 不 同 配方 的 材料 4 、 42 、 A3 、44 生产 出 来 的 元 件 ， 测 得 
其 使 用 寿命 如 表 3.2 所 示 . 绘 出 四 种 不 同 配方 材料 寿命 的 箱 线 图 ， 并 四 种 不 同 
配方 下 元 件 的 使 用 寿命 有 无 显著 的 差异 ? 

解 : 使 用 因子 格式 输入 数据 ， 并 绘 出 相应 的 箱 线 图 (程序 名 :exam0311.B). 

y<-c(1600，1610，1650，1680，1700，1700，1780，1500，1640， 

1400，1700，1750，1640，1550，1600，1620，1640，1600， 
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材料 使 用 寿命 

41 | 1600 1610 1650 1680 1700 1700 1780 

4 | 1500 1640 1400 1700 1750 

4 | 1640 1550 1600 1620 1640 1600 1740 1800 
44 |1510 1520 1530 1570 1640 1600 





1740，1800，1510，1520，1530，1570，1640，1600) 
f<-factor(c(rep(1,7),rep(2,5), rep(3,8), rep(4,6))) 
plot (f,y) 
运行 后 得 到 相应 寿命 的 箱 线 图 ， 如 图 3.7 所 示 . ”从 图 中 可 以 看 出 四 种 不 同 配 方 
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图 3.7: 四 种 不 同 配方 材料 寿命 的 箱 线 图 


材料 寿命 没有 明显 变化 . 
(4) plot (df) 
plot (~ expr) 
plot(y ~ expr) 
其 中 df 是 数据 框 ，y 是 任意 一 个 对 象 ，expr 是 对 象 名 称 的 表达 式 如 (atb+c). 
例如 输入 学 生 的 年 龄 、 身 高 和 体重 构成 数据 框 (文件 名 :student _data.B) 
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df<-data.frame( 
Age=c(13， 13，14，12，12，15， 
T5142 -13,. 12; 6 42 ， 
Height=c(56.5, 65.3, 64.3, 56. 


11, 15, 14, 
1 5, 
3，59.8，66.5，51.3， 


14，14， 






































图 3.8: 年 龄 、 


身高 和 体重 三 项 指标 构成 的 散布 图 


62.5，62.8，69.0，63.5，67.0，57.3，62.5， 
59.0，72.0，64.8，57.5，66.5) ， 
Weight=c( 84.0, 98.0， 90.0， 77.0， 84.5，112.0， 
50.5，112.5，102.5，112.5，102.5，133.0， 
83.0， 84.0， 99.5，150.0，128.0， 85.0， 
112.0) ) 
plot (df) 
attach (df) 
plot (“AgetHeight) 
plot (Weight“Aget+Height) 
plot (df) 绘 出 的 图 形 如 图 3.8 所 示 . 
55 60 65 70 
Age 0 we Wak . | 
| 0 oo L oo 。 
el i Height a 
ps。 8 
a oo Weight |s 
© 2 oo 名 3 oo Ge | 总 
| 党 这 从 上 和 由 器 i : 而 
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plot (“AgetHeight) 绘 出 身高 与 年 龄 的 散 点 图 . plot (Weight ”~Age+Height) 
绘 出 两 张 散 点 图 ， 第 一 张 是 体重 与 年 龄 ， 第 二 张 是 体重 与 身高 . 
plot 还 可 以 作 回 归 诊 断 图 等 ， 有 些 较 深 入 的 知识 ， 将 随 着 后 面 统计 知识 包 
深入 再 介绍 . 
2. 显示 多 变量 数据 
R 软件 为 显示 多 变量 数据 提供 了 两 个 非常 有 用 的 函数 . 一 个 是 pairs() 函 
数 ， 当 Xx 是 矩阵 或 数据 框 时 
> pairs(X) 
绘 出 关于 惩 阵 各 列 的 散布 图 . 例如， 以 学 生 的 数据 框 为 例 ， 
> pairs(df) 
绘 出 的 图 形 与 前 面 的 plot (df) 相同 . 
男 一 方面 个 函数 是 coplot (). 当 有 三 、 四 个 变量 时 ， coplot () 可 以 将 散 点 
图 画 的 更 细 . 假设 a 和 b 是 数值 向 量 ， 并 且 < 是 向 量 或 因子 (所 有 变量 具有 相 
同 的 长 度 )， 则 
> coplot(a ~ b | c) 
绘 出 在 给 定 < 值 下 a 关于 bp 的 散 点 图 .仍然 以 学 生 的 年 龄 、 身 高 和 体重 的 数 
据 为 例 ， 











> coplot(Weight ~ Height | Age) 
绘 出 了 按 年 龄 段 给 出 的 体重 与 号 高 的 散 点 图 ， 如 图 3.9 所 示 . 
对 于 四 个 变量 a，b，c，d, 还 可 以 有 如 下 命令 ; 
> coplot(a ~b |c+ad) 
即 按 c 、d 划分 下 ， a 关 于 b 的 散 点 图 . 
3. 显示 图 形 
其 他 的 高 水 平 绘图 函数 有 qqnorm(), hist(), dotchart(), contour() 等 . 


(1) qqnorm (x) 
qqline(x) 
qqplot (x, y) 
其 中 x，y 数值 型 向 量 ， 绘 出 数据 的 QQ 散 点 图 (已 在 3.2.2 节 介绍 过 ). 
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Given : Age 
于 | 次 13 14 15 16 
| | | | | | 
FE 
T T T T T T 
55 60 65 70 
| | | | 呈 
O D DO oo O | 
3 总 
二 | Ss 60 65 70 
DT 1 1 1 1 
三 sj 
J oo Le - 
8 a O O 0 co 
3 了 a8 9 So Oo O oO 9 
此 T T T T 
55 60 65 70 
Height 
图 3.9: 按 年 龄 划分 的 体重 与 身高 的 散 点 图 
(2) hist (x) 


hist(x, nclass=n) 


hist(x, breaks=b, ...) 
其 中 x 数值 型 向 量 ， 绘 出 数据 的 直方 图 (已 在 3.2.2 节 介 绍 过 )， 
(3) 
构造 数据 x 的 点 图 ， 在 点 图 中 ， 


dotchart(x, ...) 


y 轴 是 数据 x 标记 ，x 轴 是 数据 x 的 数值 . 


例如 ， R 软件 中 ， 数 据 VADeaths 给 出 了 Virginia (弗吉尼亚 ) 州 在 1940 年 
的 人 口 死亡 率 ， 
Rural Male Rural Female Urban Male Urban Female 
50-54 11.7 8.7 15 .4 8.4 
55-59 18 .1 下 24.3 13.6 
60-64 26.9 20.3 37 .0 19.3 
65-69 41.0 30.9 54.6 35 .1 
70-74 66 .0 54.3 71.1 50.0 
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我 们 画 出 该 数据 的 点 图 ， 
> dotchart (VADeaths, main = "Death Rates in Virginia - 1940") 
> dotchart(t(VADeaths), main = "Death Rates in Virginia - 1940") 


如 图 3.10 所 示 ， 其 中 (a) 是 第 一 个 命令 ，(b) 是 第 二 个 命令 . 









































Death Rates in Virginia - 1940 Death Rates in Virginia - 1940 
50-54 
Sura Ma 70-74 O 他 ban Female 9 
65-69 O Urban Male O 
60-64 o Rural Female 9° 
55-59 9 Rural Male 四 
50-54 55-59 
Rural Female Urban Pema 5 9 
9066 3 8 Bural pema'e Sp 
60-64 o oa 
29-29 9 60-64 
50-54 9 Urban Female 9 
Urban Male 0 
Urban Male Rural Female 9 
2368 3 O Rural Male O 
二 65-69 
20-8 9 S Urban Female O 
50-54 9 Urban Male O 
Bura 局 male O 
Urban Female , Waa 
| 70-74 
65-69 9° 
60-64 o UrBan Mea'e o 
55-59 9 Rural Female 9 
50-54 9 Rural Male 9 
T T T T T T T T T T T T T T 
10 20 30 40 S50 60 70 10 20 30 40 50 60 70 
(a) (b) 
图 3.10: Virginia 州 在 1940 年 的 人 口 死亡 率 的 点 图 
(4) image (x, y, Z, ...) 


contour(x, y, ZzZ, ...) 


persp(Xx, y, Z, ...) 


其 中 x，y 是 数值 型 向 量 ，z 与 x 和 y 对 应 的 矩阵 (z 的 行 数 是 x 的 维 数 ，z 的 
列 数 是 y 的 维 数 )，image() 绘 出 三 维 图 形 的 映 象 ， contour() 绘 出 三 维 图 形 的 


等 值 线 ， persp() 绘 出 三 维 图 形 的 表面 曲线 . 
例 3.12 (山区 地 狐 图 ) 在 某 山 区 (平面 区 域 (0,2800) x (0,2400) 内 ， 单位: 米 ) 


测 得 一 些 地 点 的 高 度 ( 单 位; 米 ) 如 表 3.9 所 示 .， 试 作出 该 山区 的 地 貌 图 和 等 


值 线 图 。 


解 : 输入 数据 ， 调 用 contour() 函数 画 等 值 ， 调 用 persp() 函数 画 三 维 图 


形 (程序 名 : ”exam0312.R). 
x<-seq(0,2800,，400); y<-seq(0,2400,400) 


z<-scan() 
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表 3.3: 某 山区 地 形 高 度数 据 


2400 | 1430 1450 1470 1320 1280 1200 1080 940 


2000 | 1450 1480 1500 1550 1510 1430 1300 1200 
1600 | 1460 1500 1550 1600 1550 1600 1600 1600 
1200 | 1370 1500 1200 1100 1550 1600 1550 1380 
800 | 1270 1500 1200 1100 1350 1450 1200 1150 
400 | 1230 1390 1500 1500 1400 900 1100 1060 


1180 1320 1450 1420 1400 1300 700 900 





y/z 0 400 800 1200 1600 2000 2400 2800 


1180 1320 1450 1420 1400 1300 700 900 
1230 1390 1500 1500 1400 900 1100 1060 
1270 1500 1200 1100 1350 1450 1200 1150 
1370 1500 1200 1100 1550 1600 1550 1380 
1460 1500 1550 1600 1550 1600 1600 1600 
1450 1480 1500 1550 1510 1430 1300 1200 
1430 1450 1470 1320 1280 1200 1080 940 


Z<-matrix(z, nrow=8) 
contour(x, y, Z, levels = seq(min(z), max(z), by = 80)) 


persp(x, y, 2) 


将 绘 出 两 幅 图 形 ， 一 幅 是 等 值 线 图 ， 如 图 3.11(a) 所 示 ， 另 一 幅 是 三 维 曲面 ， 如 
图 3.11(b) 所 示 . 

我 们 可 以 看 到 ， 图 3.11 有 两 个 缺点 ， 一 是 过 于 粗糙 ， 其 原因 是 由 于 数据 量 
过 少 造 成 的 ， 如 果 数 据 量 稍 大 一 些 ， 图 形 质 量 将 会 有 很 大 的 改善 ; 二 是 三 维 图 的 
观察 角度 不 理想 ,， 这 是 由 于 只 用 到 函数 中 各 种 参数 的 缺 省 值 状态 ,如果 改 变 某 些 
参数 的 值 ， 图 形 的 观察 角度 也 会 随 之 改变 . 例如， 将 命令 改 成 


> persp(x, y, Z, theta = 30, phi = 45, expand = 0.7) 
其 观察 角度 将 好 的 多 . 
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(a) 等 值 线 图 (b) 三 维 曲 面 图 
图 3.11: 三 维 数据 的 等 值 线 与 网 格 曲面 


例 3.13 在 [一 27,2pi] x [一 27,27| 的 正方 形 区 域内 绘 函 数 z = sin(7) sin(y) 的 等 
值 线 图 和 三 维 曲面 图 . 

解 : 写 出 相应 的 R 程序 (程序 名 : ”exam0313.R) 

x<-y<-seq(-2*pi, 2*pi, pi/15) 

f<-function(x,y) sin(x)*sin(y) 

z<-outer(x, y, £) 

contour (x,y,Z,col="blue") 

persp(x,y,Zz,theta=30, phi=30, expand=0.7,col="lightblue") 

注意 ， 在 绘 三 维 图 形 时 ， z 并 不 是 简单 地 关于 7 与 y 的 某 些 运算 ， 而 是 需 
要 在 函数 f 关系 下 作 外 积 运算 (outer(x，y，f)), 形成 网 格 ， 这 样 才能 绘 出 三 
维 图 形 ， 请 初学 者 特别 注意 这 一 点 ， 所 绘 出 的 图 形 如 图 3.12 所 示 . 在 绘图 命令 
中 增加 了 图 形 的 颜色 和 观察 图 形 的 角度 . 


3.3.2 ”高 水 平 绘图 中 的 命令 

在 高 水 平 给 函数 中 ， 可 以 加 一 些 命令 , 不 断 完善 图 的 内 容 ， 或 增加 一 些 有 用 
的 说 明 . 

1. 图 中 的 逻辑 命令 


add = TRUE 表示 所 绘图 在 原 图 上 加 图 , 缺 省 值 为 add = FALSE, 即 新 的 图 蔡 
换 原 图 . 
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(a) 等 值 线 图 (b) 三 维 曲面 图 
图 3.12: 函数 z = sin(z)sin(y) 的 等 值 线 与 网 格 曲面 


= FALSE 表示 所 绘图 形 没 有 坐标 轴 ， 缺 省 值 为 axes = TRUE. 


2. 数据 取 对 数 


log = "x" 表示 x 轴 的 数据 取 对 数 ， log = "y" 表示 y 轴 的 数据 取 对 数 ， 
log = "xy" 表示 x 轴 与 y 轴 的 数据 同时 取 取 对 数 . 


3. type 命令 


type="p" 
type="1" 
type="b" 
type="o" 
type="h" 
type="s" 
type="n" 


绘 散 点 图 ( 缺 省 值 ); 
绘 实 线 ; 
所 有 点 被 实 线 连接 ; 
实 线 通过 所 有 的 点 ; 
绘 出 点 到 x 轴 的 竖 线 ; 
or "S" 绘 出 阶梯 形 曲线 ; 
不 绘 任 何 点 或 曲线 . 


4. 图 中 的 字符 串 

xlab= 字符 串 ， 其 字符 串 的 内 容 是 x 轴 的 说 明 ， ylab= 字符 串 ， 其 字符 串 
的 内 容 是 y 轴 的 说 明 .， main= 字符 串 ， 其 字符 串 的 内 容 是 图 的 说 明 ， 和 sub= 
字符 串 ， 其 字符 串 的 内 容 是 子 图 的 说 明 ， 
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3.3.3 ” 低 水 平 作 图 函数 

有 时 高 水 平 的 作 图 函数 并 不 能 完全 达到 作 图 的 指标 ， 需 要 低 水 平 的 作 图 函数 
对 图 形 子 以 补充 . 所 有 的 低 水 平 作 图 函数 所 作 的 图 形 必须 是 在 高 水 平 作 图 函数 所 
绘图 形 的 基础 之 上 ， 增 加 新 的 图 形 . 

低 水 平 作 图 函数 有 points() 、lines() 、text() 、abline() 、polygon() 、 
legend() 、title() 和 axis() 等 . 


1. 加 点 与 线 的 函数 
加 点 函数 是 points (), 其 作用 是 在 已 有 图 上 加 点 ,命令 points(x，y) 其 功 
能 相当 于 plot (x,y). 
加 线 函数 lines (), 其 作用 是 在 已 有 图 上 加 线 , 命令 lines (x，y) 其 功能 相 
当 于 plot (x, y, type="1"). 
2. 在 点 处 加 标记 
函数 text () 的 作用 是 在 图 上 加 标记 ， 命 令 格 式 为 ; 
text(x, y, labels, ...) 
其 中 x,y 是 数据 向 量 ， labels 可 以 是 整数 ， 也 可 以 是 字符 串 . 在 缺 省 状态 下 ， 
labels=1:length(x)， 例如， 需要 绘 出 〈z, 9) 的 散 点 图 ， 并 将 所 有 点 用 数字 标 
记 ， 其 命令 为 
> plot(X，y，type = "n"); text(x, y) 





3. 在 图 上 加 直线 


函数 abline() 可 以 在 图 上 加 直线 ， 其 使 用 方法 有 四 种 格式 . 
(1) abline(a, b) 


表示 画 一 条 y = a 十 bz 的 直线 . 


(2) abline (h=y) 
表示 画 出 一 条 过 所 有 点 的 水 平 直线 . 
(3) abline (v=x) 


表示 画 出 一 条 过 所 有 点 的 竖 直 直线 . 
(4) abline (lm.obj) 
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表示 绘 出 线性 模型 得 到 的 线性 方程 . 以 第 二 章 的 例 2.3 为 例 , 说 明 该 命令 的 用 法 . 
输入 命令 (程序 名 :”add_line.R) 
rt<-read.table("exam0203.txt", head=TRUE).; 
lm.sol<-lm(Weight Height, data=rt) 
attach(rt) 


plot (Weight “Height); abline(lm.sol) 
得 到 学 生体 重 与 高 度 的 散 点 图 和 线性 回归 直线 ， 如 图 3.13 所 示 . 





Weight 











55 60 65 70 


Height 
图 3.13: 学 生体 重 与 高 度 的 散 点 图 和 线性 回归 直线 图 
函数 polygon() 可 以 在 图 上 加 多 边 形 ， 其 使 用 方法 为 
polygon(x, y, ...) 
以 数据 的 (x,y) 为 坐标 ， 依 次 连接 所 有 的 点 ， 绘 出 一 多 边 形 . 
4. 在 图 上 加 标记 、 说 明 或 其 他 内 容 
在 图 上 加 说 明文 字 、 标 记 或 其 他 内 容 有 两 个 函数 .一 个 是 加 图 的 题目 ， 用 法 


是 


title(main="Main Title", sub = "sub title",) 
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其 中 主题 目 加 在 图 的 项 部 ， 子 题目 加 在 图 的 底部 . 

男 一 个 是 在 坐标 轴 上 加 标记 、 说 明 或 其 他 内 容 ， 用 法 是 

axis(side, ...) 

其 中 side 是 边 ，side=1 表示 所 加 内 容 放 在 图 的 底部 ，side=2 表示 所 加 内 容 放 
在 图 的 左 侧 ， side=3 表示 所 加 内 容 放 在 图 的 项 部 ， side=4 表示 所 加 内 容 放 在 
图 的 右 侧 . 

在 R 软件 中 ， 还 有 其 他 一 些 作 图 函数 或 作 图 命令 ， 需 要 大 家 在 绘图 实践 中 
逐步 掌握 . 在 后 面 的 各 章 中 ， 结 合 相 应 的 统计 知识 ， 还 会 介绍 更 加 深入 的 绘图 方 
法 . 
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在 上 述 各 市 的 分 析 中 ， 其 样本 数据 基本 上 是 来 自 一 元 总 体 X, 而 在 实际 情况 
中 ， 许 多 数据 来 自 多 元 数据 的 总 体 ， 即 来 自 总 体 (Xi X2,.…, Xp)”. 对 于 来 自 多 
元 总 体 的 数据 ,除了 分 析 各 个 分 量 的 取 值 特点 外 ,更 重要 的 是 分 析 各 个 分 量 之 间 
的 相关 关系 ， 这 就 是 多 元 数据 的 相关 分 析 . 
3.4.1 二 元 数据 的 数字 特征 及 相关 系数 


设 (X, 了 2 是 二 元 总 体 ， 从 中 取得 观测 样本 (ZX1, 1)’, (ZX2, y2)’, ny (到 Yi) 
其 样本 观测 矩阵 为 
I X2 “Tn 
VY1 VY2 ee. Yn ly 


1 _ 1 
WW Ti, ee 2 


则 称 (z, 妨 ”为 二 元 观测 样本 的 均值 向 量 ， 记 


记 
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则 称 szz 为 变量 X 的 观测 样本 的 方差 ， 称 sw 为 变量 Y 的 观测 样本 的 方差 ， 称 
szy 为 变量 X,Y 的 观测 样本 的 协 方差 ， 称 


为 观测 样本 的 协 方差 官 阵 ， 称 
Szy 


J 
V SrrVy Syy 





为 观测 样本 的 相关 系数 . 

在 R 软件 中 ， 计 算 二 元 样本 的 均值 方差 的 命令 基本 上 与 一 元 变量 的 命令 相 
同 ， 有 些 地 方略 有 一 些 改动 . 计算 多 元 数据 的 均值 与 方差 采用 数据 框 的 结构 输入 
数据 ， 在 计算 中 较为 方便 ， 看 下 面 的 例子 . 
例 3.14 某 种 矿石 有 两 种 有 用 成 分 A, B, 取 10 个 样本 ， 每 个 样本 中 成 分 A 的 含 
量 百分数 Z(%) 及 B 的 含量 百分数 Yy(%) 的 数据 如 表 3.4 所 示 . ”计算 样本 的 均 





表 3.4: 矿石 中 有 用 成 分 含量 的 百分数 
xz(%) |67 54 72 64 39 22 58 43 46 34 


y(%) |124 15 23 19 16 11 20 16 17 13 


值 、 方 差 、 协 方差 和 相关 系数 . 
解 : 采用 数据 框 方式 输入 数据 , 用 mean() 函数 计算 均值 , 用 cov() 函数 计算 
协 方差 阵 , 用 cor() 函数 计算 相关 算 阵 (相关 系数 )，( 程序 名 :exam0314.R ) 
ore<-data.frame( 
x=c(67，54，72，64，39，22，58，43，46，34) ， 
y=c(24，15，23，19，16，11，20，16，17，13) 
) 


ore.m<-mean(ore); ore.s<-cov(ore); ore.r<-cor(ore) 
显示 结果 为 
> ore.m 


X y 
49.9 17.4 
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> ore.s 
了 
X 252.7667 60.60000 
y 60.6000 17.15556 
> ore.r 
Xx y 
X 1.0000000 0.9202595 
y 0.9202595 1.0000000 
在 上 述 计算 中 ， var (ore) 得 到 的 计算 结果 与 cov(ore) 得 到 的 结果 相同 . 
函数 cov() 和 cor() 的 使 用 格式 为 
cov(x, y = NULL，use = "all.obs", 
method = c("pearson", "kendall", "spearman'")) 
cor(x, y = NULL, use = "all.obs", 
method = c("pearson", "kendall", "spearman'")) 
其 中 x 是 数值 型 向 量 、 和 矩阵 或 数据 框 . y 是 空 值 (NULL, 缺 省 值 ) 、 向 量 、 和 矩阵 或 
数据 框 ， 但 需要 与 x 的 维 数 相 一 致 . cov() 的 返回 值 是 协 方差 或 协 方差 矩阵 . 
cor() 的 返回 值 是 相关 系数 或 相关 算 阵 . 
与 cov 和 cor 有 关 的 函数 还 有 : ”cov.wt 一 计算 加 权 协 方差 (加 权 协 方差 
矩阵 ); cor test 一 计算 相关 性 检验 . 


3.4.2 ”二 元 数据 的 相关 性 检验 


对 于 一 般 的 检验 问题 我 们 将 在 第 五 章 讨论 , 这 里 主要 论述 二 元 数据 相关 性 的 
检验 问题 . 
对 于 二 元 数据 





(x1,y1)’, (x2,Y2)’, 和 (nd) 


可 以 计算 出 样本 的 相关 系数 rw， 假设 样本 来 自 总 体 (X,Y), 由 第 一 童 的 知识 可 
知 ， 总 体 的 相关 系数 为 
Cov(X,Y) 


0 1 


那么 样本 的 相关 系数 与 总 体 的 相关 系数 有 什么 关系 呢 ? 
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可 以 证 明 ， 当 样本 个 数 n 充分 大 ， ray 可 以 作为 p(X,Y) 的 估计 ， 也 就 是 
说 ， 当 样本 个 数 较 大 时 ， 样 本 相关 ， 总 体 也 相关 . 但 当 样 本 个 数 较 小 时 ， 就 无 法 
得 到 相应 的 结论 . 现在 的 问题 是 ， 当 样本 个 数 n 至少 取 到 多 少时 ， 样 本 相关 才能 
保证 总 体 也 相关 ? 

Ruben (和 鲁 宾 ) 给 出 了 总 体 相关 系数 的 区 间 佑 计 ( 一般 区 间 佑 计 的 知识 将 在 
第 四 章 作 详细 的 介绍 ) 的 近似 逼近 公式 . 设 n 是 样本 个 数 ，7 是 样本 相关 系数 ， 
4 是 标准 正 态 分 布 的 上 ay/2 分 位 点 ， 即 = zay2. 则 计算 








家 
» 3.16 
让 (3.10) 
a = 2n—3—w, (3.17) 
b = 六 V(2 一 3)(27 一 5)， (3.18) 
c = (2 一 5 一 tr 一 242. (3.19) 
求 方程 o/ -2 十 c= 0 的 根 
b— Vb —ac b+ Vb —ac 
i (3.20) 
a a 
则 1 一 a 的 双 侧 置信 区 间 为 
和 (过 
1+w 1+ 色 


按照 公式 (3.16)-(3.21) 编写 出 R 程序 (程序 名 ruben .BR) 
ruben.test <- function(n, r, alpha=0.05)+ 
u <- qnorm(1-alpha/2) 
r_star <- r/sqrt(1-r“2) 
a <- 2*n-3-u’ 2 
b <- r_star*sqrt((2*n-3)*(2*n-5)) 
Cc <- (2*n-5-u*2)*r_star 2-2*u”2 
yl <- (b-sqrt(b*2-a*c))/a 
y2 <- (bt+sqrt(b*2-a*c))/a 
data.frame(n = n, r = r, conf = 1-alpha, 


L = yi/sgqrt(1it+y1°2), U = y2/sqrt (1+y2°2)) 
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当 n= 6,7=0.8 时 ， 调 入 已 编 好 的 函数 ruben.test(), 并 计算 得 到 
> source('"ruben.test.R") 
> ruben.test(6, 0.8) 
n IT conf L U 
160.8 0.95 -0.09503772 0.9727884 
置信 区 间 为 (一 0.095, 0.97), 其 置信 下 界 是 人 负数， 即使 7 = 0.8, 也 不 能 说 明 总 体 是 
考虑 n = 25, 7 = 0.7, 计算 得 到 
> ruben.test(25, 0.7) 


n r conf I U 


1 25 0.7 0.95 0.4108176 0.8535657 
置信 区 间 为 (0.41, 0.85), 此 时 ， 基 本 上 能 说 总 体 是 相关 的 . 
关于 置信 区 间 的 近似 逼近 方法 还 有 David (大 卫 ， 1954) 提出 的 图 表 方 法 ， 
Kendall ( 肯 德 尔 ) 和 Stuart (斯 图 亚 特 ， 1961) 提出 的 Fisher 台 近 方法 等 . 
确认 总 体 是 否 相 关 最 有 效 的 方法 是 作 总 体 (X,Y) 的 相关 性 检验 . 
可 以 证 明 ， 当 (X,Y)” 是 二 元 正 态 总 体 ， 且 p(X,Y) = 0, 则 统计 量 
2 (3.22) 











t 一 


服从 自由 度 为 n 一 2 的 上 分 布 . 
利用 统计 量 t 服从 自由 度 为 n 一 2 的 上 分 布 的 性 质 ， 可 以 对 数据 X 和 了 的 
相关 性 进行 检验 . 由 于 相关 系数 rzy 被 称 为 Pearson (皮尔 森 ) 相关 系数 ， 因 此 ， 
此 检验 方法 也 称 为 Pearson 相关 性 检验 . 
对 于 相关 性 检验 ， 还 有 Spearman 秩 检 验 和 Kendall 秩 检 验 ， 这 里 只 介绍 用 
R 软件 进行 检验 的 方法 ， 有 关 检 验 原理 请 读者 参看 有 关 的 数理 统计 教材 . 
在 R 软件 中 ， cor.test() 提供 了 上 述 三 种 检验 方法 ， 其 使 用 方法 是 ; 
cor.test(x, y, 
alternative = c('"two.sided", "less", "greater'"), 
method = c("pearson", "kendall", "spearman'"), 


exact = NULL, conf.level = 0.95, ...) 
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其 中 x，y 是 数据 长 度 相同 的 向 量 ，alternative 是 备 择 假设 (有 关 概 念 将 在 第 
五 章 中 详细 介绍 )， 缺 省 值 为 "two.sided", method 是 选择 的 检验 方法 ， 缺 省 值 
为 Pearson 检验 . conf .level 是 置信 区 间 水 平 ， 缺 省 值 为 0.95. 

cor .test() 函数 还 有 另 一 种 使 用 格式 

cor.test(formula, data, subset, na.action, ...) 

其 中 formula 是 公式 ， 形 如 ?~“utv?，?’u?，?v” 必 须 是 具有 相同 长 度 的 数值 问 
量 . data 是 数据 框 . subset 是 可 选择 向 量 ， 表 示 观 察 值 的 子 集 . 
例 3.15 对 例 3.14 的 两 组 数据 进行 相关 性 检验 . 

解 : 
> attach(ore) 
> cor.test(x,y) 

Pearson’s product-moment correlation 
data: x and y 
t = 6.6518, df = 8, p-value = 0.0001605 
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval: 
0.6910290 0.9813009 
sample estimates: 
cor 

0.9202595 
其 p 值 为 0.0001605 < 0.05, 拒绝 原 假设 ， 认 为 变量 X 与》 相关. 

实际 上 ， cor.test() 也 提供 了 相关 系数 的 区 间 估 计 ， 这 里 计算 的 区 间 是 
(0.69, 0.98), 因此 从 这 一 点 也 可 看 出 变量 X 与 Y 是 相关 的 . 

另外 可 用 


cor.test(x,y, method="spearman'") 








cor.test(x,y, method="kendall'") 


命令 作 男 外 两 种 检验 . 


3.4.3 ”多 元 数据 的 数字 特征 及 相关 和 矩 阵 
对 于 p 元 总 体 (Xi, 及 2， 和 nm)， 其 样本 为 


(Zz11) X12,**'*， hi) (2Z21， X22,"**， To2p), 2 (Znl， Yn2)  …) Dp) 
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其 中 第 i 本 样本 为 


(Zi Zi2 , Vip) , 7 一 1,2,.……,n. 
样本 的 第 7 个 分 量 的 均值 定义 为 
-和 
i 7 = 1,2,.……,p. 


样本 的 第 7 个 分 量 的 方差 定义 为 
1 nN 





5 过 >》 (zj — Tj), 7 二 1,2, ““* ,pb. 


= 
把 3 三江 


样本 的 第 7 个 分 量 与 第 有 个 分 量 的 协 方差 定义 为 


nN 








1 _ J y 
Sjh = 2 (Ty — Fi) (ik — Bk), i 
1 一 1 
水 = (ZT1, To, 人 po 为 p 元 样本 的 均值 ， 称 
S11 S512 *** Silp 
a 
Spl 5p2 *** Spp 
为 样本 的 协 方差 矩阵 . 
样本 的 第 7 个 分 量 与 第 & 个 分 量 的 相关 系数 定义 为 
Sjk ， 
Tjk = ) j,k= 1,2,...,. 
a VSIIV SR 
称 
Ti TI2: YS “Tip 
721 722 ”72p 
Tpl Tp2 ”7pp 


为 样本 的 相关 和 矩阵 ( Pearson 相关 和 矩阵 ). 


(3.23) 


(3.24) 


(3.25) 


(3.26) 


(3.27) 


(3.28) 


对 于 多 元 数据 ， 与 二 元 数据 相同 ， 采 用 数据 框 的 输入 方式 ， 可 以 用 mean() 


函数 、 cov() 函数 和 cor() 函数 计算 样本 的 均值 、 协 方差 阵 和 相关 矩阵 . 


关于 相关 性 检验 ，R 软件 没有 为 多 元 数据 提供 更 多 的 函数 , 仍 是 cor .test() 


作 两 两 分 量 的 相关 性 检验 . 
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例 3.16 为 了 解 菜 种 橡胶 的 性 能 ， 今 抽取 10 个 样品 ,每 个 测量 三 项 指标 : 硬度 、 
变形 和 弹性 ， 其 数据 如 表 3.5 所 示 . 试 计算 样本 均值 、 样 本 协 方差 阵 和 样本 相 


OO Co OD GO 上 WO 一 


| 一 
> 


表 3.5: 橡胶 的 三 项 指标 
硬度 (XX1) 





性 (00) 
27.6 
30.7 
31.8 
32.6 
31.0 
31.3 
37.0 
33.6 
33.1 
34.2 


关 拢 阵 . 并 用 Pearsom 相关 性 检验 确认 变量 X1,Xo,Xa 是 否 相 关 ? 





解 : 建立 数据 文件 (文件 名 : 


X1 
65 
70 
70 
69 
66 
67 
68 
72 
66 
68 


‘OO 0 NO a OW DO -~ 


[re 
LD 


X2 
45 
45 
48 
46 
50 
46 
47 
43 
47 
48 


27 . 
30 . 
31 . 
32 . 
31 . 
31 . 
37 . 
33 . 
33 . 
34. 


p< 
OO OO WW Om oo NO ww 


DD 


rubber .data), 其 格式 为 


读数 据 ， 并 计算 均值 、 协 方差 阵 和 相关 和 矩阵 


> rubber<-read.table('"rubber.data'") 
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> mean(rubber) 
X1 X2 X3 
68.10 46.50 32.29 
> cov(rubber) 
X1 X2 X3 
X1 4.766667 -1.9444444 1.9344444 
X2 -1.944444 3.8333333 0.6166667 
X3 1.934444 0.6166667 6.1898889 
> cor(rubber) 
X1 X2 X3 
X1 1.0000000 -0.4548832 0.3561291 
X2 -0.4548832 1.0000000 0.1265962 
X3 0.3561291 0.1265962 1.0000000 


> cor.test(~“X1+X2, data=rubber) 
Pearson’s product-moment correlation 
data: X1 and X2 
t = -1.4447, df = 8, p-value = 0.1865 
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval: 
-0.8430535 0.2448777 
sample estimates: 
cor 


-0.4548832 


> cor.test(~"Xi1+X3, data=rubber) 
Pearson’s product-moment correlation 
data: X1 and X3 
t = 1.078, df = 8, p-value = 0.3125 
alternative hypothesis: true correlation is not equal to 0 


95 percent confidence interval: 
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-0.3525486 0.8052056 
sample estimates: 
cor 


0.3561291 


> cor.test(~"X2+X3, data=rubber) 
Pearson’s product-moment correlation 
data: X2 and X3 
t = 0.361, df = 8, p-value = 0.7275 
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval: 
-0.5465985 0.7003952 
sample estimates: 
cor 


0.1265962 
从 上 述 计算 结果 可 以 看 出 ， 只 能 认为 X1, X2, Xs 两 两 均 是 不 相关 的 . 
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本 小 节 以 一 个 例子 说 明 相 关系 数 的 应 用 一 基于 相关 系数 的 变量 分 类 . 
例 3.17 现 有 48 位 应 聘 者 应 聘 某 公司 的 某 职 位 ， 公 司 为 这 些 应 聘 者 的 15 项 指 
标 打分 ， 这 15 项 指标 分 别 是， 求职 信 的 形式 (FL) 、 外 貌 (4PP) 、 专 业 能 
(44) 、 讨 人 喜欢 (LA) 、 自 信心 (9C) 、 洞 察 力 (了 C) 、 诚 实 (HON)、 推 销 能 
(SMS) 、 经 验 (BXP) 、 驾 驶 水 平 (DRV) 、 事 业 心 (4MB) 、 理 解 能 力 (GSP) 、 
潜在 能 力 (POT) 、 交 际 能 力 (KJ) 和 适应 性 (SUIT). 每 项 分 数 是 从 0 分 到 10 
分 ， 0 分 最 低 ， 10 分 最 高 ， 每 位 求职 者 的 15 项 指标 列 在 表 3.6 中 .公司 计划 
录用 6 名 最 优秀 的 申请 者 ， 问 公司 将 如 何 挑选 这 些 应 聘 者 ? 

解 : 通常 的 作法 是 : 作 15 项 指标 的 平均 值 


AVG = (FL + APP +...+ SUIT)/15, 





录用 分 数 最 高 的 6 名 应 聘 者 . 
录入 数据 (文件 名 : ”applicant.data ) 
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表 3.6: 48 名 应 聘 者 的 得 分 情况 
IDIFL APP AA LA SC LC HON SMS EXP DRV AMB GSP POT KJ SUIT 





10 


8 10 9 9 


5 


10 


7 6 8 7 10 


7 


7 


10 
10 
10 
10 


10 
10 


10 
10 


7 8 8 8 


9 
7 
7 
7 
9 


9 
4 
4 
4 
6 


3 10 10 10 
10 


10 


7 
3 
7 
9 


10 2 10 10 


10 0 10 8 


10 
11 


10 
10 


10 


8 


10 4 10 10 


12 
13 


10 5 4 


8 


10 


5 


10 


8 4 8 8 
8 4 7 8 
7 8 8 9 


7 


19 
20 


10 
10 
10 
10 
10 


4 


8 
7 8 9 10 


7 9 9 9 


10 
10 
10 


8 
10 


9 


22 


上 
Co 
GN 


7 10 8 10 


8 


9 





24 
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48 名 应 聘 者 的 得 分 情况 


表 3.6 续 : 
IDIFL APP AA LA SC LC HON SMS EXP DRV AMB GSP POT KJ SUIT 





7 7 4 5 9 


9 


8 
10 


25 
26 
27 


7 8 5 4 


7 9 8 9 


7 
2 


10 


10 
10 
10 
10 


9 


4 7 8 4 


5 


31 


7 
7 
4 3 3 


6 


6 4 10 8 8 


9 


37 


10 
10 
10 
10 


10 10 


10 


10 
10 


8 
10 


10 
10 


10 
10 


10 
10 


10 
10 


10 9 10 
10 9 10 


0 


9 
9 
8 
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6 
6 
7 
3 


39|10 


10 


40110 


41|10 


42|10 


7 6 9 8 


7 
6 
8 
7 


7 
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9 
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44 
45 
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10 
10 
10 


10 9 7 了 


10 10 7 9 


46 


10 3 5 0 


47 


1 5 0 
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FL APP AA LA SC LC HON SMS EXP DRV AMB GSP PUT KJ SUIT 
1 6 7 2 5 8 7 8 8 3 8 9 7 5 7 10 
2 9 10 5 810 9 9 10 5 9 9 8 8 8 10 
3 7 8 3 6 9 8 9 7 4 9 9 8 6 8 10 


读数 据 ， 计 算 各 应 聘 者 的 平均 得 分 ， 再 将 平均 得 分 排序 (由 大 到 小 ), 得 到 
> rt <- read.table("applicant .data'") 
> AVG <- apply(rt, 1, mean) 
> sort(AVG, decreasing = TRUE) 


40 39 8 7 23 22 2 
9.600000 9.466667 9.000000 8.600000 8.600000 8.533333 8.466667 
24 9 10 16 3 44 12 


8.400000 8.133333 7.666667 7.666667 7.400000 7.400000 7.200000 


这 样 得 到 前 6 名 应 聘 者 是 ， 40 、39、8、7、23 和 22 号. 

将 上 述 语句 中 的 mean 改 为 sum, 即 求 应 聘 者 的 总 得 分 ， 其 选择 结果 是 相同 
的 . 

显然 上述 作法 认为 每 项 指标 的 权重 是 相同 的 . 当然 ， 也 可 以 按 加 权 平 均值 


WTD_AVG = wiFL 二 2?APP + wisSUIT, 


其 中 wi, 2%w2,… ,wis 是 权 值 ， 满 足 ww 十 wz 十 … 十 Wis 二 1. wi(i=1,2,.…,15) 
表示 第 i 项 指标 的 重要 性 . 这 里 需要 确定 每 项 指标 的 权重 . 

上 述 两 种 方法 有 它 的 缺点 ， 因 为 有 些 指标 是 相关 的 ， 而 有 些 指标 不 相关 ， 只 
作 简 单 的 平均 计算 ， 实际 上 ， 相 关 类 多 的 项 占 的 权重 大 ， 而 相关 类 少 的 项 占 的 权 
重 小 ， 因 此 ， 在 作 评 分 前 ， 应 先 作 相 关 性 分 析 . 

作 数 据 的 相关 性 计算 ， 计 算 相 关 和 矩阵 


> cor(rt) 
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FL APP AA LA SC 
FL 1.00000000 0.2388057 0.044040889 0.306313037 0.092144656 
APP 0.23880573 1.0000000 0.123419296 0.379614151 0.430769427 
AA 0.04404089 0.1234193 1.000000000 0.001589766 0.001106763 
LA 0.30631304 0.3796142 0.001589766 1.000000000 0.302439887 
SC 0.09214466 0.4307694 0.001106763 0.302439887 1.000000000 
LC 0.22843205 0.3712589 0.076824494 0.482774928 0.807545017 
HON -0.10674947 0.3536910 -0.030269601 0.645408595 0.410090809 
SMS 0.27069919 0.4895490 0.054727421 0.361643880 0.799630538 
EXP 0.54837963 0.1409249 0.265585352 0.140723415 0.015125832 
DRV 0.34557633 0.3405493 0.093522030 0.393164148 0.704340067 
AMB 0.28464484 0.5496359 0.044065981 0.346555034 0.842122228 
GSP 0.33820196 0.5062987 0.197504552 0.502809305 0.721108973 
POT 0.36745292 0.5073769 0.290032151 0.605507554 0.671821239 
KJ 0.46720619 0.2840928 -0.323319352 0.685155768 0.482455962 
SUIT 0.58591822 0.3842084 0.140017368 0.326957419 0.250283416 

LC HON SMS EXP DRV 
FL 0.2284320 -0.106749472 0.27069919 0.54837963 0.34557633 
APP 0.3712589 0.353690969 0.48954902 0.14092491 0.34054927 


AA 0.0768245 -0.030269601 0.05472742 0.26558535 0.09352203 
LA 0.4827749 0.645408595 0.36164388 0.14072342 0.39316415 
SC 0.8075450 0.410090809 0.79963054 0.01512583 0.70434007 
LC 1.0000000 0.355844464 0.81802080 0.14720197 0.69751518 


HON 0.3558445 1.000000000 0.23990754 -0.15593849 0.28018499 
SMS 0.8180208 0.239907539 1.00000000 0.25541758 0.81473421 
EXP 0.1472020 -0.155938495 0.25541758 1.00000000 0.33722821 
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DRV 
AMB 
GSP 
POT 
KJ 
SUIT 


FL 
APP 
AA 
LA 
SC 
LC 
HON 
SMS 
EXP 
DRV 
AMB 
GSP 
POT 
KJ 
SUIT 


0.6975152 
0.7575421 
0.8828486 
0.7773162 
0.5268356 
0.4161447 
AMB 
0.28464484 


0.54963595 


0.04406598 
0.34655503 


0.84212223 
0.75754208 


0.21460636 


0.85952656 


0.19548192 


0.78032317 


1.00000000 


0.78387073 
0.76886954 
0.54712558 


0.43476824 
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0.280184989 
0.214606359 
0.385821758 
0.415657447 
0.448245522 
0.002755617 


GSP 
0.3382020 


0.5062987 


0.1975046 


0.5028093 
0.7211090 
0.8828486 


0.3858218 


0.7821232 


0.2992682 


0.7140732 
0.7838707 


1.0000000 


0.8758309 
0.5494076 
0.5278163 


数据 描述 性 分 析 
0.81473421 0.33722821 
0.85952656 0.19548192 
0.78212322 0.29926823 
0.75360983 0.34833878 
0.56328419 0.21495316 
0.55803585 0.69263617 

POT KJ 
0.3674529 ”0.4672062 
0.5073769 ”0.2840928 
0.2900322 -0.3233194 
0.6055076 ”0.6851558 
0.6718212 0.4824560 
0.7773162 0.5268356 
0.4156574 0.4482455 
0.7536098 0.5632842 
0.3483388 ”0.2149532 
0.7884002 ” 0.6128077 
0.7688695 0.5471256 
0.8758309 ”0.5494076 
1.0000000 ”0.5393968 
0.5393968 ”1.0000000 
0.5738732 0.3957988 


1.00000000 
0.78032317 
0.71407319 
0.78840024 
0.61280767 
0.62255406 

SUIT 


0.585918216 


0.384208365 
0.140017368 
0.326957419 
0.250283416 
0.416144671 
0.002755617 


0.558035847 
0.692636173 
0.622554062 


0.434768242 


0.527816315 
0.573873154 


0.395798842 
1.000000000 


为 了 便于 选择 哪些 变量 是 相关 的 ,将 上 述 相 关 甜 阵 中 相关 系数 的 绝对 值 > 0.5 
的 值 画 上 下 划 线 . 


下 面 将 变量 分 组 ， 分 组 的 原则 是 : 同一 组 中 变量 之 间 的 相关 系数 尽 可 能 的 





高 ， 而 不 同 组 间 的 相关 系数 尽 可 能 的 低 ， 从 相关 系数 最 大 的 变量 开始 ， 


LC( 洞 察 


力 ) 与 GSP( 理 解 能 力 ) 的 相关 系数 是 0.882, GSP 与 POT( 潜 在 能 力 ) 的 相关 系数 
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是 0.876, 而 LC 与 POT 之 间 的 相关 系数 是 0.777, 因此 ， 这 三 个 变量 可 以 看 成 一 
组 .SMS( 推 销 能 力 ) 也 应 该 包含 在 这 组 中 ， 因 为 它 与 LC 、GSP 和 POT 的 相 
关系 数 分 别 是 0.818 、 0.782 和 0.754. AMB( 事 业 心 ) 也 应 在 此 组 中 ， 其 相关 
系数 分 别 是 ， 0.758 、 0.860 、 0.784 和 0.769. 进一步 研究 ， 发 现 变 量 DRV (加 
驶 水 平 ) 和 SC( 自 信心 ) 也 就 在 此 组 中 . 此 组 中 各 个 变量 的 相关 系数 至 少 在 0.672 
以 上 . 

在 选择 第 二 组 的 变量 ， 按 照 同 样 的 原理 选择 FL( 求 职 信 的 形式 ) 、 EXP( 经 
验 ) 和 SUIT( 适 应 性 ), 其 相关 系数 分 别 是 : 0.548 、 0.586 和 0.693. 

第 三 组 先 选 择 KJ 交际 能 力 ) 、 LA( 讨 人 喜欢 ),， 相关 系数 是 0.685, 现 选 择 
HON( 诚 实 ), 它 与 LA 的 相关 系数 是 0.645, 但 它 与 KJ 的 相关 系数 只 有 0.448. 由 
于 全 部 数据 均 来 自 “ 人 ”的 打分 ， HON 变量 分 在 此 组 也 可 以 认为 是 合理 的 . 

再 看 AA( 专 业 能 力 ) 、 APP( 外 貌 ) 两 个 变量 . AA 变量 与 其 他 变量 的 相关 
系数 没有 超过 0.5, 而 APP 变量 与 其 他 变量 的 相关 系数 虽然 刚刚 超过 0.5 的 ， 但 
低 其 他 组 内 的 相关 系数 . 

最 后 得 到 五 个 组 : 

组 1， SC, LC, SMS, DRV, AMB, GSP 和 POT 
组 2， FL, EXP 和 SUIT 

组 3: LA, HON 和 KJ 

组 4: AA 

组 5: APP 

由 于 每 一 组 的 指标 基本 上 代表 了 同一 组 能 力 ， 因 此 ， 我 们 先 得 到 各 组 的 得 
分 ， 即 

















G1 = (SC+LC+ SMS 十 DRV 十 AMB + GSP + POT)/7 
G2 = (FL+ EXP+ SUIT)/3 

G3 = (LA+ HON+ KI)/3 

G4 = AA 

Gs = APP 


最 后 ， 每 位 申请 者 的 得 分 是 : 
Paes er em en ey 
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编写 相应 的 及 程序 (程序 名 ”group .RR), 计算 得 到 


> attach(rt) 
> rt$G1<-(SC+LC+SMS+DRV+AMB+GSP+POT) /7 
> rt$G2<- (FL+EXP+SUIT)/3 
> rt$G3<- (LA+HON+KJ)/3 
> rt$G4<-AA 
> rt$G5<-APP 
> AVG<-apply(rt[,16:20] , 1, mean) 
> sort(AVG, decreasing = TRUE) 
8 40 39 7 23 9 2 
9.000000 8.971429 8.914286 8.619048 8.390476 8.209524 8.066667 
22 24 16 46 5 10 20 
8.057143 8.038095 7.571429 7.533333 7.314286 7.304762 7.219048 


在 分 组 情况 下 ， 前 6 名 应 聘 者 是 ， 8 、40 、39 、7 、23 和 9 号 . 
或 计算 分 组 情况 下 的 加 权 平 均 分 


WTD_AVG 一 WIG1 十 W2Go 于 105Cr5， 


其 中 ii 寺中 WW 1 


3.5 ”多 元 数据 的 图 表示 方法 


在 前 面 介绍 了 许多 数据 的 图 形 表示 方法 , 但 大 多 数 是 针对 一 、 二 元 数据 的 ， 
三 维 图 形 虽 然 能 画 出 来 , 但 并 不 方便 . 对 于 三 维 以 上 数据 如 何 来 描述 呢 ? 这 是 本 
市 要 讨论 的 问题 . 许多 统计 学 家 给 出 了 多 种 多 元 数据 的 图 示 方 法 , 但 这 方面 的 研 
究 还 处 于 不 成 熟 的 状态 ， 目 前 尚未 有 公认 的 方法 . 这 里 结合 R 软 件 的 特点 ,介绍 
几 种 多 元 数据 的 图 示 方 法 . 

设 变 量 是 p 维 数据 ， 有 7 个 观测 数据 ， 其 中 第 次 的 观测 值 为 


Xj = (Th1, ZN2 , Tkp)) k= 1,2,..…,n, 
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n 次 观测 数据 组 成 矩阵 X = (zij )nxy: 


3.5.1 ”轮廓 图 


轮廓 图 由 以 下 作 图 步骤 完成 

(1) 作 直角 坐标 系 ， 横 坐标 取 p 个 点 ， 以 表示 p 个 变量 ; 

(2) 对 给 定 的 一 次 观测 值 ， 在 2 个 点 上 的 纵 坐 标 ( 即 高 度 ) 与 对 应 的 变量 取 
值 成 正比 ; 

(3) 连结 此 p 个 点 得 一 折线 ， 即 为 该 次 观测 值 的 一 格 轮廓 线 ; 

(4) 对 于 了 次 观测 值 ， 每 次 都 重复 上 述 步骤， 可 画 出 n 条 折线 , 构成 n 次 观 
测 值 的 轮廓 图 . 

编写 画 轮 亡 画 函数 ( 函数 名 :” outline.R ) 

outline <- function(x, txt = TRUE){ 

if (is.data.frame(x) == TRUE) 








x <- as.matrix(x) 
m <- nrow(x); n <- ncol(x) 
plot(c(1,n), c(min(x),max(x)), type = "n'", 
main = "The outline graph of Data", 
xlab = "Number", ylab = "Value'") 
for(i in 1:m){ 
lines(x[i,], col=i) 
if (txt == TRUE) 
k <- dimnames (x) [[1]] [i] 
text (1+(i-1)%%n, x[i,1i+(i-1)%%n] , k) 


} 
其 中 x 是 矩阵 或 数据 框 . txt 是 逻辑 变量 ， 当 txt = TRUE( 缺 省 值 ) 时 ， 绘 图 时 
给 出 观测 值 的 标号 ; 否则 (FALSE) 不 给 出 标号 . 函数 的 运行 结果 是 绘 出 n 次 观测 
值 的 轮廓 图 . 
例 3.18 为 考查 学 生 的 学 习 情 况 ， 学 校 随机 的 抽取 12 名 学 生 的 5 门 课 期 末 考 试 
的 成 绩 ， 如 表 3.7 所 示 . 画 出 12 名 学 生 学 习 成 绩 的 轮廓 图 . 
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表 3.7: 12 名 学 生 5 门 课程 的 考试 成 绩 





本 pn 
100 
97 
100 
96 
78 
97 
89 
88 
84 
39 
78 
37 


Oi oO DD oo WO 博 


解 : 将 数据 输入 到 数据 文件 中 (文件 名 ”course.data )， 其 格式 为 


X1 X2 X3 X4 X5 
1 99 94 93 100 100 
2 99 88 96 99 97 
3 100 98 81 96 100 


读数 据 ， 利 用 编写 的 outline() 函数 


> X<-read.table('"course.data'") 
> source('"outline.R'") 


> outline(X) 
绘 出 数据 的 轮廓 图 ， 如 图 3.14 所 示 . 


由 轮廓 图 (图 3.14) 可 以 直观 的 看 出 ， 哪 个 学 生成 绩 相 似 、 哪 些 属于 优秀 、 
哪些 中 等 、 哪 些 较 差 ， 对 各 门 课程 而 言 ， 也 可 直观 地 看 出 各 课程 成 绩 的 好 坏 和 分 
散 情 况 等 等 ， 这 种 图 形 在 聚 类 分 析 中 颇 有 帮助 . 
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The outline graph of Data 














1 2 3 4 5 
Number 
图 3.14: 12 名 学 生 5 门 课程 的 考试 成 绩 的 轮廓 图 
3.5.2 ” 星 图 
星 图 的 作 图 步 又 是 : 


(1) 作 一 圆 ， 并 将 圆周 p 等 分 ; 

(2) 连结 圆心 和 各 分 点 ， 把 这 p 条 半径 依次 定义 为 变量 的 坐标 轴 ， 并 标 以 适 
当 的 刻度 ; 

(3) 对 给 定 的 一 次 观测 值 ， 把 p 个 变量 值 分 别 取 在 相应 的 坐标 轴 上 ， 然 后 将 
它们 连结 成 一 个 bp 边 形 ; 

(4) n 次 观测 值 可 画 出 ”个 p 边 形 . 

R 软件 包 给 出 作 星 图 的 函数 stars(), 例如 ， 画 出 例 3.18 中 12 名 学 生 学 习 
成 绩 的 星 图 ， 只 需 

> stars(X) 

就 可 画 出 星 图 ， 如 图 3.15 所 示 . 

星 图 中 水 平 轴 是 变量 Xi, 沿 道 时 针 方 向 ， 依 次 是 Xo, X3, …… 由 于 星 图 既 像 
雷达 屏幕 上 看 到 的 图 像 ， 也 像 一 个 时 蛛网 ， 因 此， 星 图 也 称 为 雷达 图 或 蝴 蛛 图 . 
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图 3.15: 12 名 学 生 5 门 课 程 的 考试 成 绩 的 星 图 


从 图 3.15 中 可 以 看 出 1 、 2 号 学 生 学 习 成 绩优 秀 ， 11 、 12 号 学 生 学 习 成 
绩 较 差 ， 而 7 、 10 号 学 生 偏 科 . 

函数 stars() 可 以 加 各 种 参数 ， 画 各 种 不 同 的 星 图 ， 其 使 用 方法 如 下 : 
stars(x, full = TRUE, scale = TRUE, radius = TRUE， 

labels = dimnames (x)[[1]], locations = NULL, 

nrow = NULL, ncol = NULL, len = 1, 

key.loc = NULL, key.labels = dimnames(x)[[2]], key.xpd = TRUE， 

xlim = NULL, ylim = NULL, flip.labels = NULL, 





draw.segments = FALSE, col.segments = 1l:n.seg, col.stars = NA, 
axes = FALSE, frame.plot = axes, 
main = NULL, sub = NULL, xlab = "", ylab = "",， 
cex = 0.8, lwd = 0.25, lty = par("lty"), xpd = FALSE, 
mar = pmin(par ("mar'"), 
1.1+ c(2*axes+ (xlab != ""), 


2x*axest+ (ylab != ""), 1,0)), 
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add = FALSE, plot = TRUE, ...) 
其 中 x 是 矩阵 或 数据 框 ，full 是 逻辑 变量 , 如 果 full = TRUE ( 缺 省 值 ), 则 星 图 
画 成 圆 的 ; 否则 (FALSE) 画 成 上 半圆 图 形 ， scale 是 逻辑 变量 , 当 scale = TRUE 
( 缺 省 值 ), 数据 矩阵 的 每 一 列 是 独立 的 , 并 且 每 列 的 最 大 值 为 1, 最 小 值 为 0; 否则 
(FALSE) 所 有 星 图 会 符 在 一 起 . radius 是 逻辑 变量 ， 当 radius = TRUE ( 缺 省 
值 ), 绘 出 星 图 的 半径 构成 的 连 线 ;否则 (FALSE) 绘 出 的 星 图 无 半径 构成 的 连 线 . 
len 是 半径 尺度 因子 ( 缺 省 值 为 1), 表明 星 图 的 比例 . key.1loc 是 一 个 由 x 与 y 
坐标 构成 的 向 量 ( 缺 省 值 为 NULL), 它 表 明 标 准星 的 的 位 置 . draw.segments 是 
逻辑 变量 ， 当 draw.segments = TRUE ( 缺 省 值 是 FALSE), 绘 出 的 星 图 是 一 段 一 
段 的 弧 ， 其 他 参数 的 使 用 方法 请 参见 在 线 帮 助 . 

调整 函数 stars() 中 的 参数 ， 可 将 例 3.18 中 12 名 学 生 学 习 成 绩 的 星 图 画 
成 男 一 种 形式 

> stars(X, full=FALSE, draw.segments = TRUE， 
key.loc = c(5,0.5), mar = c(2,0,0,0)) 

画 出 星 图 如 图 3.16 所 示 . 


人 A eq 
0 人 < 


Ys A hh 
10 11 12 
X3 
X4 X2 


图 3.16: 12 名 学 生 5 门 课程 的 考试 成 绩 的 星 图 ( 带 参 数 ) 
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并 
局 


3.5.3 ”调和 曲线 图 


调和 曲线 图 是 Andrews (安德鲁 斯 ) 在 1972 年 提出 来 的 三 角 表 示 法 ， 其 思想 
是 将 多 维 空间 中 的 一 个 点 对 应 于 二 维 平面 的 一 条 曲线 ， 对 于 2 维 数据 ， 假 设 X， 
是 第 7 观测 值 ， 即 








= (zr1, Vr2,"**， yi 
则 对 应 的 调和 曲线 是 
fr(t) = 态 十 Zr2 :Sin(t) + rr: cos(t) + zra Sin(2t) + zrs cos(2t)+ 


十 … 十 ， 二 (3.29) 


n 次 观测 数据 对 应 n 条 曲线 , 现在 同一 张 平 面 上 就 是 一 张 调和 曲线 图 . 当 各 
变量 数据 的 数值 相差 太 悬 殊 ， 最 好 先 标 准 化 再 作 图 . 
按照 式 (3.29) 编写 画 调和 曲线 图 函数 ( 函数 名 :unison.R ) 
unison <- function(x){ 


if (is.data.frame(x) == TRUE) 





X <- as.matrix(x) 
t <- seq(-pi, pi, pi/30) 
m <- nrow(x); n<-ncol(x) 
f <- array(0, c(m,length(t))) 
for(i in 1:m){ 
f[i,] <- x[i,1]/sqrt(2) 
for( j in 2:n){ 
if (j%%2 == 0) 
f[i,] <- f[i,]+x[i,j]*sin(j/2*t) 
else 


f[i,] <- f[i,]+x[i,j]*cos(j%/%2*t) 


} 
plot(c(-pi,pi), cl(min(f), max(f)), type = "nu， 
main = "The Unison graph of Data", 


xlab = "t", ylab = "f(t)") 


日 
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和 


for(i in 1:m) lines(t, f[i,] ，col = i) 
} 
其 中 x 是 矩阵 或 数据 框 ， 函 数 的 输出 结果 是 调和 曲线 . 
例 3.19 画 出 例 3.18 中 12 名 学 生 学 习 成 绩 的 调和 曲线 图 . 
解 : 用 编 好 的 函数 unison() 作 图 ， 
> source('"unison.R") 


> unison(X) 


绘 出 调和 曲线 图 ， 如 图 3.17 所 示 . 


The Unison graph of Data 





f(t) 
100 200 300 
| | | 


0 
| 





—100 











图 3.17: 12 名 学 生 5 门 课程 的 调和 曲线 图 


Andrews 证 明了 三 角 式 多 项 式 图 有 许多 很 好 的 性 质 ， 这 种 图 对 聚 类 分 析 帮 
助 很 大 . 如 果 选 择 聚 类 统计 量 为 距离 ， 则 同类 的 曲线 拧 在 一 起 ， 不 同类 的 曲线 拧 
成 不 同 的 束 ， 非 常 直观 . 


ud 


习题 三 


3.1 某 单 位 对 100 名 女生 测定 血清 总 蛋白 含量 (g/ 攻 ), 数据 如 下 : 
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74. 
79. 
75. 
73 . 
75 . 
70 . 
73 . 
67 . 
75. 
73 . 


3 
5 
0 
5 
8 
4 
5 
2 
8 
5 


78 . 
75 . 
73 . 
75 . 
75 . 
72 . 
79 . 
76 . 
73 . 
79 . 


8 
6 
5 
0 
8 
0 
5 
5 
5 


5 


68 . 
75 . 
78 . 
72 . 
68 . 
76 . 
73 . 
72 . 
75 . 
70 . 


计算 均值 、 方 差 标 准 差 、 


8 78.0 70. 
0 78.8 72. 
8 74.3 75. 
0 64.3 75. 
8 76.5 70. 
5 74.3 76. 
5 74.7 65. 
7 70.4 77. 
0 73.5 73. 
4 76.5 72. 
极 差 、 


和 


4 
0 
8 
8 
4 
5 
0 
2 
5 


7 


80 . 
72 . 
65 . 
80 . 
71 . 
77 . 
76 . 
68 . 
73 . 
77 . 


章 数据 描述 性 


DD oo 0 oo OO NN WW OO OA 


分 析 
80.5 69. 
72.0 74. 
74.3 71. 
69.7 74. 
81.2 75. 
67.3 72. 
81.6 75 
67.3 67. 
72.7 81. 
84.3 75. 


标准 误 、 变 异 系 数 、 偏 
3.2 绘 出 习题 3.1 的 直方 图 、 密 度 估计 曲线 、 经 验 分 布 图 和 QQ 图 ， 并 将 密度 
估计 曲线 与 正 态 密度 曲线 相 比 较 ， 将 经 验 分 布 曲线 与 正 态 分 布 曲线 相 比 较 ( 其 中 
正 术 曲线 的 均值 和 标准 差 取 习 题 3.1 计 算出 的 值 ). 


3.3 绘 出 习题 3.1 的 茶叶 图 、 箱 线 图 ， 并 计算 五 数 总 括 . 


3.4 分 别 用 WW 检验 方法 和 Kolmogorov-Smirnov 检验 方法 检验 习题 3.1 的 数据 
是 否 服从 正 态 分 布 . 


和 下 2 
S12 712: 
2 69.7 68. 
3 73.5 73. 
0 70.4 68. 
0 75.0 74. 
.4 72.7 72. 
3 67.3 72. 
6 70.3 74. 
0 76.5 70. 
度 、 峰 度 . 


本 WW NN NW OO 0 OO OA 


3.5 小 白鼠 在 接种 了 3 种 不 同 菌 型 的 伤寒 杆菌 后 的 存活 天 数 如 表 3.8 所 示 ， 


绘 出 数据 的 箱 线 图 (采用 两 种 方法 ， 一 种 是 plot 语句 ， 另 一 种 是 boxplot 语 
名 ) 来 判断 小 白鼠 被 注射 三 种 菌 型 后 的 平均 存活 天 数 有 无 显著 差异 ? 


3.6 绘 出 例 9.16 关于 三 项 指标 的 离散 图 , 从 图 中 分 析 例 3.16 的 结论 的 合理 性 . 





表 3.8: 白鼠 试验 数据 


3 2 4 
8 5 10 
6 6 7 


存活 日 数 
可 7 2 
7 12 12 
9 5 5 
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3.7 某 校 测 得 19 名 学 生 的 四 项 指标 ， 性别、 年龄 、 身 高 (cm) 和 体重 ( 磅 ) 具体 


数据 由 表 3.9 所 示 . (1) 试 绘 出 体重 对 于 身高 的 散 点 图 ; 


表 3.9: 学 生 身高 、 体 重 的 数据 


01 Alice 
02 Becka 
03 Gail 
04 Karen 
05 Kathy 
06 Mary 
07 Sandy 
08 Sharon 
09 Tammy 
10 Alfred 
11 Duke 
12 Guido 


志 梧 本 本 本 本 本 喇 叶 


三 区 多 


13 James 
14 Jeffrey 
15 John 
16 Philip 
17 Robert 
18 Thomas 
19 William 


二 





三 


况 下 ， 体 重 与 身高 的 散 点 图 ; (2) 绘 出 不 同年 龄 段 的 体重 与 身高 的 散 点 图 ; 


分 不 同性 别 和 不 同年 龄 段 的 体重 与 身高 的 散 点 图 . 


于 





体重 
84.0 
98.0 
90.0 
77.0 
84.5 
112.0 
50.5 
112.5 
102.5 
112.5 
102.5 
133.0 
83.0 
84.0 
99.5 
150.0 
128.0 
85.0 
112.0 


(2) 绘 出 不 同性 别 情 


(4) 


3.8 画 出 函数 2 二 7 一 273Y 十 2 一 25Yy 十 2 十 37 一 物 十 4 在 区 域 -2 之 x 之 3， 
-1 冬 % 近 7 上 的 三 维 网 格 曲面 和 二 维 等 值 线 ， 其 中 Xx 与 Y 各 点 之 间 的 间隔 为 
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0.05, 等 值 线 的 值 分 别 为 0, 1, 2, 3, 4, 5, 10, 15, 20 30 40 506080100, 共 
15 条 . ( 注 ， 在 三 维 图 形 中 选择 合适 的 角度 . ) 
3.9 用 pearson 相关 检验 法 检验 习题 3.7 中 的 身高 与 体重 是 否 相 关 . 


3.10 绘 出 例 3.17 中 418 名 求职 者 数据 的 星 图 . (1) 以 15 项 自 变 量 FL，APP， 
…,，SUIT 为 星 图 的 轴 ; (2) 以 G1,G2,…,Gs 为 星 图 的 轴 . 通过 这 些 星 图 ， 你 能 
否 说 明 应 选 哪 6 名 应 聘 者 .为 使 星 图 能 够 充分 反映 应 聘 者 的 情况 ,在 作 图 中 可 送 
当 调 整 各 种 参数 . 

3.11 绘 出 例 3.17 中 他 名 求职 者 数据 的 调和 曲线 ， 以 G1,G2,…,Gs 为 自 变 


对 


B= 


量 ， 
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总 体 是 由 总 体 分 布 来 刻画 的 . 在 实际 问题 中 我 们 根据 问题 本 号 的 专业 知识 或 
以 往 的 经 验 或 用 适当 的 统计 方法 ， 有 时 可 以 判断 总 体 分 布 的 类 型 , 但 是 总 体 分 布 
的 参数 还 是 未 知 的 , 需要 通过 样本 来 估计 . 例如 , 为 了 研究 人 们 的 市 场 消费 行为 ， 
要 先 搞 清楚 人 们 的 收入 状况 . 若 假 设 某 城 市 人 均 年 收入 服从 正 态 分 布 N(j,0”)， 
但 参数 上 和 o? 的 具体 取 值 并 不 知道 ， 需 要 通过 样本 来 估计. 又 如 ， 假 定 某 城 市 
在 单位 时 间 ( 壁 如 一 个 月 ) 内 交通 事故 发 生 次 数 服从 Poisson 分 布 P(), 其 中 的 
参数 和 也 是 末 知 的 , 同样 需要 用 样本 来 估计 . 根据 样本 来 估计 总 体 分 布 所 包含 的 
未 知 参数 ， 叫 作 参 数 估计 (parametric estimation). 它 是 统计 推断 的 一 种 重要 形 
式 . 

如 何 根 据 样本 的 取 值 来 寻找 这 些 参数 的 估计 呢 ? 通常 有 两 种 形式 ， 一 种 称 
为 点 估计 (point estimation), 另 一 种 称 为 区 间 估 计 (interval estimation). 点 估计 
就 是 用 一 个 统计 量 来 估计 一 个 未 知 参数 .点 估计 的 优点 是 : 能 够 明确 地 告诉 人 们 
“未 知 参数 大 致 是 多 少 ”. 其 缺点 是 : 不 能 反映 出 估计 的 可 信 程 度 ， 区间 佑 计 是 用 
两 个 统计 量 所 构成 的 区 间 来 估计 一 个 未 知 的 参数 , 并 同时 指明 此 区 间 可 以 覆盖 住 
这 个 参数 的 可 靠 程度 (置信 度 ). 它 的 缺点 是 : 不 能 直接 地 告诉 人 们 “未 知 参数 具 
体 是 多 少 ” 这 一 明确 的 概念 . 





4.1 操 估 计 


设 总 体 X 分 布 由 有 限 个 未 知 参数 9 = (0 0 …,gm)7 所 决定 ， 记 为 fy, 称 
0 可 能 取 值 的 范围 为 参数 空间 (parameter space), 记 作 9. 

记 f(x;0) 为 总 体 X 的 概率 密度 函数 或 分 布 律 , 知 总 体 X 分 布 为 连续 型 的 ， 
则 f(z;9) 是 概率 密度 函数 . 若 总 体 X 分 布 为 离散 型 的 ， 则 f(x;0) 是 分 布 律 . 例 
如 ， 对 于 Poisson 分 布 P(A), 9 = 入 就 是 1 维 未 知 参 数 ， 对 于 正 态 分 布 N(1,0?)， 
0 = (1,07) 就 是 2 维 未 知 参数 . 

为 了 估计 总 体 X 的 参数 9, 就 要 从 总 体 X 中 抽出 一 个 样本 Xi, X2,……… ,XX 
( 即 Xi 关 2,… ,Xn 是 独立 同 分 布 ), 它们 的 共同 分 布 就 是 总 体 分 布 f(z;9). 为 了 佑 
计 0, 需要 构造 适当 的 统计 量 0(X1, XX,…,X), 它 只 依赖 于 样本 ， 不 依赖 于 未 知 
参数 . 也 就 是 说 , 一 旦 有 了 样本 Xi, X2，………，Xn， 就 可 以 计算 出 0(X1, Xa,……， XX) 
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的 值 ， 作 为 0 的 估计 值 ， 称 统计 量 0(X1, X2,.…, X) 为 9 的 估计 ， 简 记 为 0. 
为 未 知 参数 9 和 估计 0 都 是 空间 上 的 点 ， 因 此 称 这 样 的 估计 为 点 估计 .寻找 点 
估计 的 党 用 方法 有 : 和 矩 法 、 极 大 似 然 法 和 最 小 二 乘法 等 . 
4.1.1 ”算法 

算法 (method of moments) 是 由 英国 统计 学 家 K . Pearson 在 20 世纪 初 提 
出 来 的 ， 它 的 中 心思 想 就 是 用 样本 矩 去 估计 总 体 矩 . 

设 总 体 X 的 分 布 中 的 未 知 参数 为 0 = (91,02,…,0,,)7, 假定 总 体 X 的 大 阶 

E(X*) = ak(0 92 ,0m), k=1,2,.…,m 


存在 ， 我 们 令 总 体 的 〖 阶 原点 抢 等 于 它 样 本 的 太 阶 原点 算 


1 n 
A k= 1,2,...,m, 


即 


1 Nn 
ak(0 ,0 ,0 = E(X*) = 二 > (4.1) 
i=1 


由 方程 (4.1) 可 以 得 到 关于 未 知 量 9 的 解 


入 入 


0; = 0;(X1, X2,::, Xn) 1 = 1,2,.….,m. (4.2) 
取 0= (外,02,…,0m)” 作 为 0 = (00 go)7 的 估计 ， 则 称 9 为 0 的 抢 估 计 
(estimation by moments), 用 和 矩 估计 参数 的 方法 称 为 算法 . 
例 4.1 设 总 体 六 的 均值 为 ,方差 为 0 ,XX1, 义 2,…, Xn 是 来 自 总 体 和 的 一 个 
样本 ， 试 用 纶 方法 估计 均值 J, 和 方差 07. 
解 : 计算 总 体 X 的 一 阶 、 二 阶 原点 矩 
Ql 二 E(X) = HW, 
a2 = EBE(X*:)= Var(X)+[E(X) =0o +y. 


和 样本 的 一 阶 、 二 阶 原点 冠 


Ai= 1 42 = 19 x? 
2 一 1 i 二 1 
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由 式 (4.1) 得 到 方程 组 


1 三 XX， 
02 十 12 = 1 
解 上 述 方程 组 得 到 均值 4 和 方差 0 的 矩 估计 
= X, (4.3) 
62 = FD) 0 (4.4) 


需要 特别 注意 的 是 : 方差 的 矩 估 计 并 不 等 于 样本 方差 9 ,而 是 有 如 下 关系 式 


i 
027=— -92. (4.5) 
Nn 


对 于 正 态 分 布 N(u,0”), 因为 Hn 和 0o2 分 别 为 总 体 的 均值 和 方差， 二 (4.3) 
和 式 (4.4) 得 到 参数 人 和 o? 的 矩 估 计 


pT DC 


从 上 述 过 程 ， 可 以 看 到 ， 利 用 和 矩 法 估计 均 值 和 方差 ,就 等 价 于 用 样本 的 一 阶 
原点 矩 估 计 均 值 ， 用 样本 的 二 阶 中心 矩 估计 方差 . 
例 4.2 设 总 体 X 服从 指数 分 布 ， 密 度 函 数 是 
Ae ~”, zr>0, 
i 


0 2Z < 0， 





其 中 入 是 未 知 参 数 ， 若 X1,X2，，…,Xn 来 自 总 体 区 的 一 个 样本 ， 试 用 和 矩 估 法 估 
计 参 数 入 . 
解 : 指数 分 布 的 一 阶 矩 (均值 ) 是 1/ 和 , 因此 ， 它 的 估计 是 


a 
i=1 


Xn 是 总体 | X 的 一 1 试用 答 法 估计 参数 0. 
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解 : 均匀 分 布 的 一 阶 逢 (均值 ) 是 0/2, 因此 ， 它 的 估计 是 


Nt 


例 4.4 设 总 体 X 是 区 间 [a, 站 上 的 均匀 分 布 ， 其 中 a,b 是 未 知 参 数 ， Xi1,X， 
…,， Xn 是 总 体 X 的 一 个 样本 ， 试 用 算 舍 法 估计 参数 a 和. 

解 , 由 例 4.1 的 计算 过 程 ( 式 (4.3)-(4.4) ) 可 知 , 用 一 、 二 阶 原点 矩 作 估计 ， 
本 质 上 相当 用 一 阶 原点 估计 均值 ， 二 阶 中 心 矩 估计 方差 ， 即 


E(X) = Ai = > Var(X) = Wo = 六 Cp a 
7 二] 


2 一 1 


均匀 分 布 的 均值 是 (0 一 a)/2, 方差 是 (0 一 a)”/12, 所 以 令 








i Ca 
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解 上 述 方程 组 得 到 a 和 5 的 估计 分 别 为 
a=- V3M, b=X+ V3M. (4.6) 


如 果 不 能 得 到 方程 (4.1) 解 的 解析 表达 式 ， 则 可 以 通过 数值 的 方法 求解 方程 
(4.0), 得 到 相应 的 矩 估计 . 
例 4.5 设 总 体 X 服从 二 项 分 布 B(k,p), 其 中 ,Pp 为 未 知 参 数 ， X1,X2,……… ,Xn 
是 总 体 X 的 一 个 样本 ， 求 参数 有,p 的 和 矩 估计 太 广 . 

解 : 尽管 本 例 可 以 得 到 方程 (4.1) 解 的 解析 表达 式 ， 但 为 了 演示 数值 计算 的 
过 程 和 比较 数值 计算 的 精确 程度 ， 这 里 还 是 采用 数值 计算 的 方法 进行 矩 估计 . 

二 项 分 布 的 均值 (总体 一 阶 原 点 矩 ) 是 kp, 方差 总体 二 阶 中 心 矩 ) 是 hp(1 一 
Dp). 建立 方程 组 





kp—X=0, kp(l —p)— M2=0. (4.7) 
编写 相应 的 及 函数 (程序 名 : ”moment_fun.R) 


moment_fun<-function(p){ 
f<-c(p[1i]*p[2]-A1, p[i]j*p[2]-p[1]*p[2] “2-M2) 
J<-matrix(c(p[2] , p[1], 
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p[2]-p[2] “2, p[1]-2*p[1]*p[2]), 
nrow=2, byrow=T) 
list(f=f, J=J) 
} 


其 中 p[1] 表示 参数 k, p[2] 表示 参数 p, 于 是 由 方程 (4.7) 左 端 构造 的 函数 ， J 
为 函数 £ 的 Jacobi 矩阵 . 


考虑 用 Newton 法 ( 见 第 二 章 2.9.3 厄 ) 求解 非 线性 方程 组 (4.7), 其 中 样本 取 
值 由 随机 数 产 生 . 建立 矩 估计 的 R 函数 (程序 名 :moment_estimate.R) 
x<-rbinom(100, 20, 0.7); n<-length(x) 
A1<-mean(x) ; M2<-(n-1)/n*var(x) 
source("moment_fun.R") 
source("../chapter02/Newtons.R") 
p<-c(10,0.5); Newtons(moment_fun, p) 


在 程序 中 ， 第 一 句 是 产生 100 个 天 = 20, p = 0.7 的 二 项 分 布 的 随机 数 ， 第 
二 句 是 计算 样本 均值 (样本 一 阶 原点 矩 ) 和 样本 二 阶 中 心 害 . 第 三 句 是 调 入 已 编 
好 的 程序 moment_fun.R 和 Newtons.R, 其 中 source() 语句 是 已 编 好 的 程序 调 
入 内 存 ， 其 使 用 格式 是 : 


source('"FileName") 
文件 名 ("FileName") 中 可 以 包含 文件 的 路 径 . 
最 后 一 句 是 给 出 初 值 ， 调 用 Newton 法 计算 方程 的 根 ， 其 计算 结果 如 下 
$root 
[1] 19.4957061 0.7237491 
$it 
[1] 11 
$index 
[1] 1 
$FunVal 
[1] 0.000000e+00 -2.220446e-15 


经 过 11 次 类 代 ， 得 到 计算 结果 . 
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下 面 给 出 方程 (4.7) 解析 解 的 计算 结果 


一 -2 三 二 

广 FF-M 

k= 二 19.49571， 万 = 全 一 一 
XY- M, 


= 0.7237491. 








两 者 比较 ， 误 差 是 很 小 的 . 

此 例 表 明 ， 在 无 法 得 到 方程 (4.1) 解析 解 的 情况 下 ， 利 用 数值 计算 ， 得 到 数 
值 解 也 不 失 一 种 较 好 的 方法 . 

通过 上 述 的 例子 可 以 看 出 ， 矩 法 的 优点 是 : 在 其 能 用 的 情况 下 ， 计 算 往往 很 
简单 . 但 矩 法 相对 其 他 倍 计 方法 ， 如 极 大 似 然 法 ， 其 效率 往往 较 低 . 


4.1.2 ” 极 大 似 然 法 


极 大 似 然 法 是 Fisher( 费 希 尔 ) 在 1912 年 提出 的 一 种 应 用 非常 广泛 的 参数 佑 
计 方 法 ， 其 思想 始 于 Gauss 的 误差 理论 ， 它 具有 很 多 优良 的 性 质 . 它 充 分 利用 总 
体 分 布 函数 的 信息 ， 殉 服 了 和 矩 法 的 某 些 不 足 . 

设 9 是 参数 空间 ， 参 数 9 可 取 9 的 所 有 值 ， 在 给 定 样本 的 观察 值 (x1, x2， 
…, Zn) 后 ,不 同 的 0 对 应 于 (Xi, XX2,…， Xn) 落 入 (Z 72，…, Xn) 的 邻 域 内 的 
概率 大 小 不 同 ， 既 然 在 一 次 试验 中 就 观察 到 了 (Xi, X2，……， Xn) 的 取 值 为 (zl， 
ZT2，…, Zn), 因此 ， 可 以 认为 6 是 最 有 可 能 来 源 于 使 (Xi, X2,…, Xn) 落 入 (zh 
z2, …， Tn) 邻 域内 的 概率 达到 最 大 者 0, 即 


nN 


] [f(zi;0) 二 sup | [ f(zi 0). (4.8) 


i=1 26 11 


取 0 作为 0 的 估计 ， 这 就 是 极 大 似 然 原 理 . 

注意 到 ， 当 XX 为 连续 型 随机 变量 时 ， 式 (4.8) 中 的 f(zi;9) 是 参数 的 取 值 为 
9 时 ，X 的 概率 密度 函数 在 处 的 取 值 ， 当 X 为 离散 型 随机 变量 时 ， f(xi; 09) 
为 参数 0 时 ， XX 取 zi 的 概率 (分 布 律 ). 
定义 4.1 设 总 体 X 的 概率 密度 函数 或 分 布 律 为 f(2;0), 0 € 日 是 未 知 参数 ， 
XX1, XX2,… ,Xn 来 自 总 体 X 的 样本 ， 称 


L(0;7) = L(0;z1, x2,..*, zn) = | [ fC2i;0) 


为 0 的 似 然 画 数 (likelihood function). 
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显然 ， 者 样本 取 值 x 固定 时 ， Z(O27) 是 0 的 函数 若 参 数 9 固定 ， 当 X 
为 连续 型 随机 变量 时 ， 它 就 是 样本 (Xi, X2，……,Xn) 的 联合 概率 密度 函数 ; 当 X 
为 离散 型 随机 变量 时 ， 它 就 是 样本 (Xi Xo，…,Xn) 的 联合 分 布 律 . 
定义 4.2 设 总 体 XX 的 概率 密度 函数 或 分 布 律 为 flz;g),， 0 E 日 是 未 知 参数 ， 
X1, XX2,…， Xn 来 自 总 体 X 的 样本 ， 工 (0;7) 为 0 的 似 然 函数 ， 著 0 = 0(X) 
= 0(Xi1, Xz,…, Xn) 是 一 个 统计 量 且 满足 





L(O(X); X) = sup L(0; X), 


bee 
则 称 0(X) 为 9 的 极 大 似 然 估 计 (mazimaurmma likelihood estimation), 简 记 为 MLE. 
用 极 大 似 然 估计 来 估计 参数 的 方法 为 称 极 大 似 然 法 . 
下 面 分 不 同情 况 介绍 极 大 似 然 法 的 求解 过 程 . 
(1) 似 然 函 数 L(0; 关 ) 为 0 的 连续 函数 ， 且 关于 0 的 各 分 量 的 偏 导数 存在 . 
设 0 是 mm 维 变量 ， 且 6 C R" 为 开 区 域 ,， 则 由 极 值 的 一 阶 必要 条 件 ， 得 到 
OL(0; X) 
O0; ， 
通常 称 式 (4.9) 为 似 然 方程 由 于 独立 同 分 布 的 样本 的 似 然 函数 L(0; XX) 具有 连 
乘积 的 形式 ， 故 对 L(9; 匀 ) 取 对 数 后 再 求 偏 导 数 是 方便 的 ， 因 此 实用 上 党 采用 与 
(4.9) 等 价 的 形式 








人 (4.9) 


OlnL(0; X) 
O00; , 

称 式 (4.10) 为 对 数 似 然 方程 (loglikelihood equation). 

值得 注意 的 是 : 由 极 值 的 必要 条 件 知 ,， 极 大 似 然 估计 一 定 是 似 然 方程 或 对 数 
似 然 方 程 的 解 ， 但 似 然 方程 或 对 数 似 然 方程 的 解 未 必 都 是 极 大 似 然 估计 . 严格 地 
讲 ， 似 然 函 数 L(0; 关 ) 或 对 数 似 然 函 数 InL(0; XX) 对 于 参数 0 的 二 阶 Hesse 矩阵 
V3L(0;X) 或 V3InL(9; 久 ) 负 定 ( 若 0 是 一 元 变量 ， 3820 < 0 或 2 的 车 < 
0), 则 似 然 方程 或 对 数 似 然 方程 的 解 才 是 极 大 似 然 估 计 . 
例 4.6 设 总 体 区 服从 正 态 分 布 N(J,0 ), 其 中 1,0? 为 未 知 参 数 ，X1, XX2,……… ,Xn 
是 来 自 总 体 X 的 一 个 样本 ， 试 用 极 大 似 然 法 估计 参数 (14,07). 

解 : 正 态 分 布 的 似 然 函数 为 


和 ls 
D(a 7) -IIX (zi; G (2ro” ) ? exp 站 >》 (zi - ) 


i 二 1 


i = 1,2,...,m. (4.10) 
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相应 的 对 数 似 然 函数 为 


ot ,lt 2 1 2 
InL(n,o”;7z) = -5 ln(27o ) 一 07 2 一 内) 


令 
omni,o;7rz) 1 
一 一 一 一 一 = 一 》(z 一 中 =0， 
2 
Op 0 el 
OlnL(p,o’;z) n LR > 
nl 


解 此 似 然 方程 组 得 到 ， 
下 总 四 下 


进一步 验证 ， 对 于 对 数 似 然 函数 mn Lu ca2 7z) 的 二 阶 Hesse 和 矩阵 


一 六 一 去 Dn) |[- 荔 0 
en a 六 | 


9 


Pu 


是 负 定 矩阵 , 所 以 EC S35 -可 
极 大 似 然 估计 是 


nN 


二 
= 


SEE 
与 例 4.1 相 比较 ， 两 者 的 计算 结果 是 相同 的 ， 
例 4.7 设 总 体系 的 服从 指数 分 布 ， 密 度 函 数 是 
| 入 ea ， z=0, 


0 2Z < 0， 


f(7) = 


ZU oz) 的 极 大 值 点 . 故 (0 0 


) 的 


其 中 入 是 未 知 参数 ,车 X1, X2,*…,， Xn 来 自 总 体 区 的 一 个 样本 ,试用 极 大 似 然 


估计 求 参 数 入 . 
解 : 只 考虑 x; > 0 部 分 ， 指 数 分 布 的 似 然 函 数 为 


nN 


LX;z) = [| f(zi;N) A a |- ;Dol 


i=1 
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相应 的 对 数 似 然 函 数 为 


In L(A; 7) 一 7 和 A 一 入 >》 Zi 


2 一 1 


这 
2 nn - 了 
解 此 似 然 方程 组 得 到 ， ， 
A=n/ Do 
由 于 于 二 < 扩 对 = 一 本 二 0 因此 ，/ 3 是 LA;z) 的 极 大 值 点 . 故 和 的 


极 大 似 然 估计 是 n/ DX 


与 例 4.2 相 比 较 ， 两 者 的 计算 结果 也 是 相同 的 . 
(2) 似 然 函数 L(0; zx) 关于 0 有 间断 点 . 
当 9 为 R” 中 的 开 区 域 ， 此 时 求 似 然 方程 组 解 的 方法 不 适用 ， 要 具体 问题 
具体 分 析 . 
例 4.8 设 总 体 X 是 区 间 [a, 中 上 的 均匀 分 布 ， 其 中 a, b 是 未 知 参数 ， XI, X， 
…,， Xn 是 总 体 X 的 一 个 样本 ， 试 用 极 大 似 然 法 估计 参数 a 和 0. 
解 对 于 样本 Xi XXXn 其 似 然 函 数 为 
1 
L(a,b;7x) = | b—a)" 
0， 其 它 . 


很 显然 ，Z(a zzZ) 不 是 (a, 05) 的 连续 函数 ,因此 不 能 用 似 然 方程 组 (4.10) 求解 ， 
而 必需 从 极 大 似 然 佑 计 的 定义 出 发 来 求 L(a, 5;7) 的 最 大 值 . 为 了 使 L(a, 2b; 7x) 达 
到 最 大 ， 则 5 一 a 应 该 尽 可 能 的 小 ,， 但 5 不 能 小 于 max{z1, 7X2,…, Xn}; 否则 
L(a,b;7z) = 0. 类 似 地 ，a 不 能 大 于 min{zi1, 7x2,…, zr}. 因此 ，a 和 5 的 极 大 似 
然 佑 计 为 


， 若 ao 苹 刀 所 i= 1,2,:…,n, 


= {Xi Xa = Xs = a Xi Xb) = 


200 第 四 章 参数 估计 


同样 的 理由 ， 知 用 极 大 似 然 法 估计 例 4.5 中 的 0, 得 到 的 结果 是 
0 = Xn. 


对 于 这 两 个 例子 ， 极 大 似 然 法 与 矩 法 估计 出 的 值 是 不 相同 的 . 

(3) 昌 为 离散 参数 空间 . 

在 此 情况 下 ， 为 求 极 大 似 然 佑 计 ， 经 常 考虑 参数 取 相 邻 的 值 时 ， 似 然 函 数 的 
比值 . 
例 4.9 在 鱼池 中 随机 地 捕捞 500 条 鱼 , 做 上 记号 后 再 放 入 池 中 , 待 充 分 混合 后 ， 
再 捕捞 1000 条 ， 结 采 发 现 其 中 有 72 条 鱼 带 有 记号 .试问 鱼池 中 可 能 有 多 少 条 
多? 

解 : 先 将 问题 一 般 化 . 设 池 中 有 NN 条 鱼 ， 其 中 7 条 带 有 记号 ， 随 机 地 捕捞 
到 s 条 ， 发 现 z 条 带 有 记号 ， 用 上 述 信息 来 估计 NN. 

用 X 记 捕 捞 到 的 s 条 鱼 中 带 有 记号 的 鱼 数 ， 则 有 

CA 
P{X = 7z}= Ou 
因此 ， 似 然 函数 为 
LON;z)= PIX = %), 
考虑 似 然 函数 的 比 
L(N;z) (N—s)(N—r7) N?—(r+s)N+rs 
和 L(N—1;z2) 加 VON -7 一 5 十 2) N2 一 (十 S)NT+TZN 
当 rs>>ZXN 时 ， 有 g(N)>1, 当 rs<xN 时， 有 9g(N)<1. 即 
L(N;z) > L(N — 1;2), 当 N < 一， 
IE 当 N>—. 
因此 ， 似 然 函 数 L(N;z) 在 N = 一 附近 达到 极 大 ， 注 意 到 N 只 取 正 整数 ， 易 
得 入 的 极 大 似 然 估计 为 ; 
#- 加 | 
化 


其 中 「 . ] 表示 下 取 整 ， 即 小 于 该 值 的 最 大 整数 
将 题目 中 的 数字 代入 ,得 到 太一 | 2 
估计 为 6944 条 
(4) 如 果 在 解 (对 数 ) 似 然 方程 时 无 法 得 到 解析 表达 式 ， 只 能 采用 数值 方法 . 


| = 644 即 鱼池 中 全 的 总 数 
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例 4.10 设 总 体 和 服从 Cauchy 分 布 ， 其 概率 密度 函数 为 


1 


f (7;0) i 


—00<Z7X<o, 
其 中 0 为 未 知 参 数 . Xl, 义 2, …, Xn 来 自 总 体 XX 的 样本 ， 求 0 的 极 大 似 然 估 
计 

解 ，Cauchy 分 布 的 似 然 函 数 为 


ro) = Js0) = 二 [re 
2 en 
相应 的 对 数 似 然 函 数 为 
In L(0;7x) = —nln(r -Dn (1 + (zi — 0)*), (4.11) 
得 到 对 数 似 然 方 各 
ss =0. (4.12) 


i 二 1 


可 以 看 到 ， 得 到 对 数 似 然 方程 (4.12) 的 解析 解 是 困难 的 ， 下 面 考虑 用 R 软 
件 求 数值 解 . 
在 第 二 章 (2.9.1 节 ) 介绍 了 方程 求 根 函 数 uniroot (), 这 里 用 它 求 似 然 方 程 
(4.12) 的 根 . 关于 样本 X 的 取 值 用 随机 数 产 生 . 
> x <- rcauchy(1000,1) 
> f <- function(p) sum((x-p)/(1+(x-p) “2)) 
> out <- uniroot(f, c(0, 5)) 
在 程序 中 ， 第 一 句 是 产生 1000 个 参数 9 = 1 的 随机 数 ， 第 二 句 写 出 似 然 方程 
(4.12) 对 应 的 函数 第 三 句 是 用 求 根 函数 uniroot () 求 似 然 方程 在 区 间 (0,5) 内 
的 根 ， 其 计算 结果 为 


> out 





$root 

[1] 1.049538 

$f .root 

[1] -0.006061751 
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$iter 
[1] 5 
$estim.prec 


[1] 6.103516e-05 
在 计算 结果 中 ，$root 是 方程 根 的 近似 解 , 即 估 计 值 为 9 = 1.049538. $f .root 是 
函数 f 在 近似 值 处 的 函数 值 ，$iter 的 大 代 次 数 , 即 用 了 5 次 杰 代 . $estim.prec 
是 近似 解 与 精确 解 的 误差 估计 ， 即 近似 解 与 精确 解 误差 的 绝对 值 不 超过 6.104 x 
1075. 
函数 uniroot () 的 一 般 使 用 格式 为 
uniroot(f, interval, 
lower = min(interval), upper = max(interval), 
tol = .Machine$double.eps*°0.25, maxiter = 1000, ...) 
其 中 f 是 所 求 方程 的 函数 . interval 是 包含 有 方程 根 的 初始 区 间 . lower 是 
初始 区 间 的 无 端点 ， upper 是 初始 区 间 的 右 端点 . tol 是 计算 精度 ， maxiter 
是 最 大 迭代 次 数 ( 缺 省 值 为 1000). 
前 面 讨论 的 是 如 何 用 R 软件 中 的 函数 求 (对 数 ) 似 然 方程 的 根 ， 事 实 上 ， 也 
可 以 直接 用 R 软件 中 的 函数 求 (对 数 ) 似 然 函 数 的 极 值 . 
及 软件 中 函数 optimize() (或 optimise()) 可 直接 求 一 维 变量 函数 的 极 小 
点 ， 这 里 用 它 求 对 数 似 然 函数 (4.11) 的 极 值 点 ， 其 程序 如 下 
> loglike <- function(p) sum(log(1+(x-p) “2)) 
> out <- optimize(loglike, c(0, 5)) 
在 程序 中 ， 第 一 句 是 对 数 似 然 函 数 (4.11) ( 略 去 常数 项 ， 由 于 求 极 小 ， 加 一 个 负 
号 ) 第 二 句 是 用 函数 optimize() 求 函 数 loglike 在 区 间 (0,5) 上 的 极 小 点 . 
其 计算 结果 为 
> out 
$minimum 
[1] 1.049513 
$objective 
[1] 1303.192 
在 计算 结果 中 ， $minimum 是 极 小 点 的 近似 解 ， 即 估计 值 为 0 = 1.049513. 
$objective 是 目标 函数 在 近似 解 处 的 函数 值 . 
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与 求 似 然 方程 根 的 方法 比较 ,两 者 的 计算 结果 相差 不 大 . 事实 上 ， 求 似 然 方 
程 根 的 方法 可 能 更 准确 一 些 , 但 此 方法 需要 先 求 导数 ， 这 对 于 较为 复杂 的 函数 ， 
可 能 会 带 来 一 定 的 困难 . 

函数 optimize() (和 optimise()) 的 一 般 用 法 是 : 


optimize(f = , interval = ,， lower = min(interval), 








upper = max(interval), maximum = FALSE， 
tol = .Machine$double.eps°0.25, ...) 
optimise(f = , interval = ,， lower = min(interval), 
upper = max(interval), maximum = FALSE， 
tol = .Machine$double.eps*0.25, ...) 
其 中 f 是 求 极 小 的 目标 函数 . interval 是 包含 有 极 小 的 初始 区 间 . ”lower 是 
初始 区 间 的 无 端点 ， upper 是 初始 区 间 的 右 端 点 . maximum 是 逻辑 变量 ， 如 果 
maximum = FALSE( 缺 省 值 ) 表示 求 函 数 极 小 值 点 ;否则 (maximum = TRUE) 表示 
求 函 数 的 极 大 值 点 . tol 是 计算 精度 . 
当 未 知 参 数 9 是 多 元 变量 时 ， 极 大 似 然 法 求解 的 数值 方法 要 适用 于 多 变量 
函数 . 例如 ， 可 以 用 Newton 法 ( 见 第 二 章 的 2.9.3 市 ) 求解 对 数 似 然 方程 (4.10). 
也 可 以 用 R 软件 中 的 nlm() 函数 直接 求解 无 约束 问题 


min L(90;7) 或 min In L(0; x), 


这 里 z 是 随机 变量 X 的 取 值 . 

为 了 了 解 nlm 淆 数 求 多 元 函数 极 小 的 方法 , 这 里 简单 介绍 如 何 用 浮 数 nlm() 
求 多 变量 函数 f(x) 的 极 小 值 点 ， 有 关 nlm() 函数 在 统计 中 的 使 用 ， 将 会 在 第 六 
章 的 6.7.2 节 中 有 关 非 线性 回归 的 计算 中 讲 到 . 

用 nlm() 函数 求 无 约束 优化 问题 

min f(x)= 100(x2 — 71) + (1— zi) (4.13) 

的 极 小 点 ， 取 初始 点 zt0 = (一 1.2,1)7. 称 函 数 (4.13) 为 Rosenbrock 函数 ， 或 橡 
胶 函 数 . 

写 出 目标 函数 (程序 名 Rosenbrock .BR)， 


obj<-function(x){ 
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f<-c(10*(x[2] -x[1] “2), 1-x[1]) 
sum(f“2) 
} 
将 函数 调 入 内 存 ， 再 调用 nlm() 函数 求解 
> source("Rosenbrock.R") 
> x0<-c(-1.2,1); nlm(obj,x0) 
其 中 x0 是 初始 值 ， 得 到 
$minimum 
[1] 3.973766e-12 
$estimate 
[1] 0.999998 0.999996 
$gradient 
[1] -6.539275e-07 3.335996e-07 
$code 
[1] 1 
$iterations 
[1] 23 


其 中 $minimum 是 函数 的 最 优 目 标 值 ， 即 f* = 3.973766 x 10- .$estimate 是 
最 优点 的 估计 值 ， 即 z* = (0.999998, 0.999996)7?，$gradient 是 在 最 优点 处 ( 估 
计 值 ) 目标 函数 梯度 值 ， 即 Vf* = (一 6.539275 x 107", 3.335996 x 107")’. $code 
是 指标 ， 这 里 是 1, 表示 选 代 成 功 ， $iterations 是 渤 代 次 数 ， 这 里 是 23, 表示 
进行 了 23 次 迁 代 ， 

实际 上 ， Rosenbrock 函数 的 最 优点 是 x* = (1,1)7, 最 优 目 标 函 数值 为 
f(x*)=0. 

通过 上 述 分 析 和 相应 的 例子 ， 可 以 得 到 : 和 矩 法 的 优点 是 简单 ， 只 需 知 道 总 体 
的 矩 ， 总 体 的 分 布 形 式 不 必 知 道 , 而 极 大 似 然 法 则 必须 知道 总 体 分 布 形 式 ， 并 且 
在 一 般 情 况 下 ， 似 然 方程 组 的 求解 较为 复杂 , 往往 需要 在 计算 机 上 通过 迭代 运算 
才能 计算 出 其 近似 解 . 

在 上 述 例 子 中 ,分 别 用 窍 法 和 极 大 似 然 法 对 正 态 分 布 和 均匀 分 布 的 参数 进 
行 估计 ,在 所 得 到 的 估计 中 ， 对 于 正 态 分 布 , 两 种 方法 得 到 的 参数 估计 值 是 一 致 
的 ， 而 对 均匀 分 布 ， 两 种 方法 得 到 的 参数 估计 值 不 一 样 ， 对 某 种 参数 进行 估计 ， 
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究竟 哪 种 好 呢 ? 下面 给 出 估计 量 的 优良 性 的 判别 准则 . 


4.2 ”估计 量 的 优良 性 准则 


从 前 面 两 节 的 讨论 中 可 以 看 到 ， 对 总 体 中 同一 参数 0, 采用 不 同 的 估计 方法 
得 到 的 估计 量 9 可 能 是 一 样 的 ,但 对 于 大 多 数 情况 是 不 一 样 的 . 例如， 对 于 均匀 
分 布 Ula,0], 参数 佑 计 的 算法 与 极 大 似 然 法 佑 计 的 结果 是 不 同 的 ， 究 竞 如 何 选择 
“ 较 好 ”的 估计 量 呢 ? 即 如 何 评 价 佑 计量 的 优 劣 ? 这 里 简单 介绍 评价 估计 量 优 劣 
的 准则 一 倍 计量 的 无 偏 性 、 有 效 性 和 相合 性 (一 致 性 ). 


4.2.1 无 偏 估计 


估计 量 是 随机 变量 ， 对 于 不 同 的 样本 值 就 会 得 到 不 同 的 估计 值 . 这 样 ， 要 确 
定 一 个 估计 量 的 好 坏 ， 就 不 能 仅仅 依据 某 次 抽样 的 结果 来 衡量 ， 而 必须 由 多 次 抽 
样 的 结果 来 衡量 . 对 此 ， 一 个 自然 而 基本 的 衡量 标准 是 要 求 估计 量 无 系统 偏差， 
也 就 是 说 , 尽管 在 一 次 抽样 申 得 到 的 估计 值 不 一 定 恰好 等 于 待 估 参 数 的 真 值 ,但 
在 大 量 重复 抽样 (样本 容量 相同 ) 时 ， 所 得 到 的 估计 值 平均 起 来 应 与 待 佑 参数 的 
真 值 相同 ， 换 句 话说 ， 希 望 估计 量 的 数学 期 望 应 等 于 未 知 参 数 的 真 值 ， 这 就 是 所 
谓 无 偏 性 的 要 求 . 这 一 直观 要 求 用 概率 语言 描述 就 是 以 下 定义 . 
定义 4.3 设 久 是 总 休 ，0 E 日 是 包含 在 总 体 X 的 分 布 中 的 待 佑 参数 ，X1, X2， 
…， Xi 是 来 自 总 体 X 的 一 个 样本 .车 估计 量 0 = 0(X1, Xz,……,， Xn) 的 数学 期 
望 轧 ( 国 存在 ， 且 对 于 任意 gc 日 有 





E(0) = 0， (4.14) 


则 称 0 是 9 的 无 偏 估计 量 或 无 偏 估 计 (unbiased estimate). 

称 (90) 一 0 为 以 6 作为 9 的 估计 的 系统 误差 或 偏差 .无 偏 估计 的 实际 意义 
就 是 无 系统 误差 . 

若 B(0) -0 关 0, 但 当 样本 容量 n 一 co 时 ， 有 


lim [5(0) a g| = (4.15) 


则 称 6 为 9 的 渐 近 无 偏 估计 . 
一 个 估计 量 如 果 不 是 无 偏 的 ， 则 称 它 是 有 偏 估计 量 . 
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例 4.11 设 总 体 天 的 天 人 点 和 矩 ak 二 已 (X*)(k 过 1) 存在 ，X1,X2,…,Xn 是 
X 的 一 个 样本 ， Ak = 一 二 2 Mt 为 本 的 上 阶 原点 证 明 : 无 论 总 体 X 服 


从 什么 分 布 ， 则 大 阶 样 林原 上 和 矩 4 是 厂 阶 总 体 原点 和 开 ak 的 无 偏 估计 . 
证 明 : 设 X1, X2， 2 0 与 xX 同 分 布 且 相互 独立 ， 故 有 


B(x D(X) $= 1,2,.……,n, 
即 有 


= 万 (| 三 1 a(x 


特别 地 , 不 论 总 体 X 服从 什么 分 布 ,只 要 数学 期 望 存在 , 必 有 EB(X) = 
即 X 是 4 的 无 偏 估计 . 
例 4.12 设 总 体 六 的 均值 由、 方差 o” 存在 ， 册 0” 为 未 知 参 数 ， 则 0? 的 估计 量 


2 ly xT) 
人 = x) 


是 有 偏 估计 和 量 ， 
证 明 : 由 于 


人 


EF) = EB (1 3 ey 7 =》 5 (二 





和 
E(X?) = Var(Xi)+[E(Xi)] =0° ++, 
万 (又 ) 二 Var(X) 十 [EF)] - + 
则 得 到 
o? 一 1 
B60) -ot (t+)- 02 #07. 


所 以 5” 是 有 偏 的 ， 若 用 9? 去 估计 o”, 则 估计 值 平均 偏 小 ,但 它 是 0? 的 渐 近 无 
偏 估计 . 
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对 于 样本 方差 ， 有 
> 1 _T 7 ~2 
和 RT 2 i 
HM 的 汪 2 
nl ~ nl n I 


这 就 是 说 ,样本 方差 5? 是 总 体 方差 0? 的 无 偏 估计 ， 故 一 般 都 采用 5S” 作为 总 体 
方差 o? 的 估计 量 . 


4.2.2 ”有效 性 


在 许多 情况 下 ， 总 体 参 数 0 的 无 偏 估计 量 不 是 惟一 的 . 那么 ， 如 何 衡量 一 个 
参数 的 两 个 无 偏 估计 量 何者 更 好 呢 ? 一 个 重要 标准 就 是 观察 它们 谁 的 取 值 更 集 
中 于 竺 估计 参数 的 真 值 附 近 ， 即 哪 一 个 估计 量 的 方差 更 小 . 这 就 是 下 面 的 有 效 性 
定义 4.4 设 委 二 名 (Xi, Xp,…, Xi) 与 0 二 02(X1,X2,…,XX,) 都 是 9 的 无 偏 
估计 ， 著 





Var(01) < Var(0,), 

则 称 人 比 如 有 效 . 

考察 0 的 所 有 无 偏 佑 计量 ， 如 果 其 中 存在 一 个 估计 量 bo 的 方差 最 小 ， 则 此 
估计 量 应 当 最 好 ,并 称 此 估计 量 久 为 9 的 最 小 方差 无 偏 估计 (minimum variance 
unbiased estimate). 

可 以 证 明 , 对 于 正 态 总 体 NU c ), (XX,5°) 是 (1,0°) 的 最 小 方差 无 偏 估计 . 

有 效 性 的 意义 是 : 用 0 估计 9 时 ， 除 无 系统 偏差 外 ， 还 要 求 估计 精度 更 高 
例 4.13 设 总 体 站 的 均值 WU 和 方差 0 存在， X1,X2,……，Xn 是 来 自 总 体 吕 
的 一 个 样本 ,证明 舍 计 几 时， 二 针 = 比 2 = os 有 效 ， 其 中 








n 
> ， ci 一]1， ci > 0,7= 1,2,.…,n. 
2 一 1 


解 : 容易 验证 ， 已 0) = (fo2) = 几 都 是 /的 无 偏 佑 计 .， 计算 方差 得 到 


Var(fi) = Var(X) = 


Var(fia) = Var Dox = 2 (cvarC) = 0 2 dd 
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nN 2 Nn 

由 不 等 式 3 ] <n 和 C2， 得 到 
这 1 i=1 


epee a vo 
ar(fu) = i 2 :和 = Var(f2), 
故 人 wu 比 fj。 有效 . 
4.2.3 ”相合 性 (一 致 性 ) 


估计 量 9 的 无 偏 性 和 有 效 性 都 是 在 样本 容量 ”固定 的 情况 下 讨论 的 . 然而 ， 
由 于 估计 量 0(X1, X2,……, X) 依赖 于 样本 容量 n, 自然 会 想到 ， 一 个 好 的 估计 量 
0, 当 样本 容量 n 越 大 时 ， 由 于 关于 总 体 的 信息 也 随 之 增加 ， 该 估计 理应 越 精 确 
越 可 靠 ， 特 别 是 当 n 一 ce 时 ， 估 计 值 将 与 参数 真 值 几乎 完全 一 致 ， 这 就 是 估计 
量 的 相合 性 ( 或 称 为 一 致 性 )， 相 合 性 的 严格 定义 如 下 : 
定义 4.5 设 0(X1, Xo,…, Xi) 为 未 知 参数 9 的 估计 量 ， 若 对 于 任意 0 < 9, 当 


入 


NO0 时 ， 0(X1, Xo, I ,Xn) 依 概 率 收 敛 于 0， 即 对 任意 0 0， 有 














lim P{|06—0| <e}=1, 


则 称 0 为 0 的 相合 估计 (consistent estimate) 量 或 一 致 估计 量 ， 并 记 为 6 二 
0(7 一 co)， 


若 当 nn 一 00 时 ， 日 均 方 收 化 于 0, 即 


lim E(0 — 0)?=0, 


N00 


则 称 6 为 0 的 均 方 相合 估计 量 [或 一 致 估计 量 ) 并 记 为 6 三 ,0g(n 一 00). 


4.3 区 间 估 计 


前 面 介绍 的 点 估计 方法 是 针对 总 体 的 某 一 末 知 参数 0, 构造 9 的 一 个 估计 量 
0(X1, XX2,… ,Xn), 对 于 某 次 抽样 的 结果 ， 即 一 个 样本 观察 值 (zt za……,zn), 可 
用 估计 bzi x2,…, zn) 作为 9 的 一 个 近似 值 ， 即 认为 6(z1, x2,…, zn) 交 0. 但 
是 ， 人 们 要 问 这 种 估计 的 精确 性 如 何 ? 可 信 程 度 如 何 ? 点 估计 无 法 回答 这 些 问 
题 ， 为 了 解决 这 些 间 题 ， 需 要 讨论 参数 的 区 间 估 计 . 
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定义 4.6 设 总 体 X 的 分 布 函数 F(zig) 含 未 知 参 数 0， 对 于 给 定 值 a (0 < 
Q < 1), 著 由 样本 Xi，X2，…，Xn 确定 的 两 个 统计 量 (XI1,X2，,…， Xn) 和 


入 


Oo(X1, X2,:*:, Xn) 满足 
P {OX X, a Re ea Ry ,XX)} 生计 三 部 (4.16) 


则 称 随 机 区 间 ( 欠 , Oo) 是 参数 9 的 置信 和 度 为 1 一 a 的 置信 区 间 (confidence inter- 
val), 01 和 5 分 别称 为 置信 度 为 1 一 a 的 双 便 置信 区 间 的 置信 下 限 与 置信 上 限 ， 
称 工 一 a 为 置信 度 或 置信 系数 . 

置信 区 间 (外 , 02) 是 一 个 随机 区 间 ， 对 每 次 的 抽样 来 说 ， 往 往 有 所 不 同 ， 并 
有 了 时 包含 了 参数 9, 有 时 不 包含 9. 但 是 ， 此 区 间 包 含 0 的 可 能 性 (置信 和 度 ) 是 
1 一 Qa. 显然 ,在 置信 度 一 定 的 前 提 下 置信 区 间 的 长 度 越 短 ， 其 精度 越 高 ， 估 计 也 
就 越 好 ， 在 实用 中 ， 通 常 给 定 一 定 的 置信 和 度 ， 求 尽 可 能 短 的 置信 区 间 . 


4.3.1 一 个 正 态 总 体 的 情况 

假设 正 态 总 体 X ~ No X1, XXX 为 来 自 总 体 X 的 一 个 样本 ， 
1 一 a 为 置信 和 度 ， X 为 样本 均值 ， 5? 为 样本 方差 . 

1. 均值 / 的 区 间 估 计 

分 别 讨论 总 体 X 的 方差 o? 已 知 和 方差 o? 未 知 两 种 情形 . 

当 02 已 知 时 ， 由 于 


Xkh 





FA ~ NGD， (4.17) 
因此 有 到 
及 一 内 本 
| 了 万 < Zp} =1 ， (4.18) 








其 中 Gu 为 标准 正 态 分 布 N(0,1) 上 的 a 分 位 点 ,， 即 @(Zu) =1 一 Qa. 由 式 (4.18) 
得 到 关于 均值 凡 置信 和 度 为 1 一 a 的 双 侧 置信 区 间 


= (ea 一 一 (oa 
有 4.19 


当 o” 未 知 时 ， 由 于 








o/vVn 入 一 
rT- mm -区 -4 A 二 (4.20) 
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区 0 


| 5] 
其 中 fa(n 一 1) 表示 自由 度 为 m 一 1 的 为 f- 分 布 上 a 分 位 点 .由 式 (4.21) 得 到 
关于 均值 ,置信 度 为 1 a 的 双 侧 置信 区 间 











oo =1—a, (4.21) 


局 = -op 一 1])， 瑟 十 -op = y | (4.22) 
根据 公式 (4.19) 和 公式 (4.22) 写 出 总 体 方差 已 知 和 方差 未 知 两 种 情况 均值 
人 区间 估 计 的 R 程序 (程序 名 : ”interval_estimatel.R ). 
interval_estimate1l<-function(x, sigma=-1, alpha=0.05)+ 
n<-length(x); xb<-mean(x) 
if (sigma>=0){ 
tmp<-sigma/sqrt (n)*qnorm(1-alpha/2); df<-n 
} 
elset 
tmp<-sd(x)/sqrt(n)*qt(1-alpha/2,n-1); df<-n-1 
} 
data.frame (mean=xb, df=df, a=xb-tmp, b=xb+tmp) 
} 
在 程序 中 ， x 是 来 自 总 体 的 数据 (样本 ) 构成 的 向 量 . sigma 是 总 体 的 标准 
差 ， 当 标准 差 已 知 时 ， 输 入 相应 的 值 ， 程 序 采用 正 态 分 布 计算 区 间 端 点 ， 当 标准 
差 未 知 时 ， 输 入 项 可 缺 省 ， 程 序 采用 三 分 布 计算 区 间 端 点 . alpha 是 显著 性 水 
平 ， 缺 省 值 为 0.05. 函数 以 数据 框 的 形式 输出 ， 输 出 的 内 容 有 : 样本 均值 mean， 
自由 度 df 和 均值 区 间 估 计 的 上 下 限 a，b. 
注意 : 在 R 软件 中 ， 所 有 的 分 位 点 均 是 按 下 分 位 点 计算 的 ， 而 本 书 中 的 数 
学 表达 式 所 使 用 的 分 位 点 均 是 上 分 位 点 ， 因 此 数学 表达 式 与 R 软件 中 的 函数 有 
如 下 关系 


Za = qnorm(1-alpha), ta(n—1)= qt(i-alpha, n-1). 
其 他 分 布 函数 也 相同 ， 请 注意 两 者 的 差别 ， 在 编程 中 不 要 混 清 ， 
在 得 到 观测 数据 后 ， 可 以 用 此 函数 对 参数 / 作 区 间 佑 计 . 
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例 4.14 某 工厂 生产 的 零件 长 度 和 被 认为 服从 N(1,0.04), 现 从 该 产品 中 随机 柏 
取 6 个， 其 长 度 的 测量 值 如 下 ( 单位 ， 毫米 ) 
14.6, 15.1, 14.9, 14.8, 15.2, 15.1, 
试 求 该 零件 长 度 的 置信 系数 为 0.95 的 区 间 估 计 . 
解 : 输入 数据 ， 调 用 孙 数 interval_estimatel()( 程 序 名 :exam0414.B) 
source("interval_estimatel.R") 
X<-c(14.6, 15.1,14.9, 14.8, 15.2,15.1) 
interval_estimate1l(X, sigma=0.2) 
得 到 
mean df a b 
1 14.95 6 14.78997 15.11003 
因此 ， 该 零件 长 度 的 置信 系数 为 0.95 的 置信 区 间 为 [14.79, 15.11]. 

例 4.15 为 估计 一 件 物 体 的 重量 4, 将 其 称 了 10 次 ,得 到 的 重量 ( 单位 : 千克 ) 
为 
10.1, 10, 9.8, 10.5, 9.7, 10.1, 9.9, 10.2, 10.9, 9.9, 
假设 所 称 出 的 物体 重量 服从 N(J,0”), 求 该 物体 / 置信 系数 为 0.95 的 置信 区 

间 . 
解 : 输入 数据 ， 调 用 孙 数 interval_estimate1l() (程序 名 : ”exam0415.R) 
source("interval_estimatel1.R") 
X<-c(10.1, 10, 9.8, 10.5, 9.7, 10.1, 9.9, 10.2, 10.3,9.9) 
interval_estimatel (X) 
得 到 
mean df a b 
1 10.05 9 9.877225 10.22278 
因此 ， 该 物体 1 置信 系数 为 0.95 置信 区 间 为 [9.87, 10.22]. 
R 软件 中 的 ttest 检验 函数 可 以 完成 相应 的 区 间 佑 计 工 作 ， 例 如 
> 七 .test(X) 
One Sample t-test 


data: XX 
t = 131.5854, df = 9, p-value = 4.296e-16 
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alternative hypothesis: true mean is not equal to 0 
95 percent confidence interval: 
9.877225 10.222775 
sample estimates: 
mean of x 
10.05 

得 到 相应 的 区 间 估 计 [9.88, 10.22| 和 其 它 的 一 些 信 息 . 注意 到 : 由 t.test() 也 
数 得 到 的 区 间 估 计 与 我 们 编写 函数 得 到 的 区 间 佑 计 是 相同 的 , 从 这 里 可 以 帮助 大 
家 了 解 t.test() 的 计算 过 程 . 关于 t.test() 函数 进一步 的 使 用 方法 将 在 下 一 


章 介 绍 . 
2. 方差 " ”的 区 间 估 计 


分 别 讨论 总 体 X 均值 y 已 知 和 均值 / 未 知 两 种 情形 . 
当 /是 已 知 时 ， 用 0? 的 极 大 似 然 估计 








0 Sp) (4.23) 


Nn 


来 导出 o? 的 置信 区 间 . 由 x? 分 布 的 定义 容易 推出 


入 2 nN 
= /or ~ xm) (4.24) 
i 二 1 
因此 有 n 
Pip SS pd} -1-0 (4.25) 





其 中 和 son) 和 x2js(n) 分 别 表示 自由 度 为 的 为 x? 一 分 布 上 1 一 a/2 和 a/2 
分 位 点 ， 由 此 得 到 o? 的 置信 度 为 1 - a 的 双 侧 置 信 区 间 


一 i (4.26) 


Xe (n) i (n) 
当 4 是 未 知 时 ， co” 的 极 大 似 然 佑 计 


2 >_(X;—X)? 


一 计 
2 i=1 
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且 满 足 
0 (4.27) 





0 


因此 ， 有 


nm1)s? 
Pf- Dd < <x Dd))} -1-e 





其 中 好 on 一 1 和 和 ptn 一 1) 分 别 表示 自由 度 为 n 一 1 的 为 X2- 分 布 上 
1 a/2 和 ay/2 分 位 点 ， 由 此 得 到 o2 的 置信 度 为 1 - a 的 双 侧 置信 区 间 


i 


me (4.28) 
Xe = 1) XB EE 1) 


根据 公式 (4.26) 和 公式 (4.28) 写 出 总 体 均 值 已 知 和 均值 未 知 两 种 情况 方差 
02 区 间 估 计 的 R 程序 (程序 名 ”interval_var1.R ) 

interval_var1i<-function(x, mu=Inf, alpha=0.05)1{ 

n<-length (x) 
if (mu<Inf){ 

S2 <- sum((x-mu) “2)/n; df <- n 
} 
elset 

S2 <- var(x); df <- n-1 
} 
a<-df*S2/qchisq(1-alpha/2 ,df) 
b<-df*S2/qchisq(alpha/2,df) 
data.frame(var=S2, df=df, a=a, b=b) 

} 

在 程序 中 ，x 是 由 来 自 总 体 的 数据 (样本 ) 构成 的 向 量 .mu 是 总 体 均值 ， 当 
均值 已 知 时 ， 输 入 相应 的 值 ， 程 序 采用 自由 度 为 n 的 x 一 分 布 计算 区 间 端 点 . 
当 均 值 未 知 时 ， 输 入 项 可 缺 省 ， 程 序 采 用 自由 度 为 n 一 1 的 x 一 分布 计 算 区间 
端点 . 数据 输出 采用 数据 框 的 形式 ,输出 值 是 样本 方差 var, 自由 度 df 和 方差 的 
区 间 佑 计 a,b. 

例 4.16 用 区 间 估 计 方 法 估计 例 4.15 的 测量 误差 ( 即 方差 922 )， 分别 对 均值 1 
已 知 (1 二 10) 和 均值 J 未知 两 种 情况 进行 讨论 . 
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解 用 上 面 编 好 的 函数 计算 . 
#### 输入 数据 ， 调 用 编 好 的 程序 
> X<-c(10.1,10,9.8,10.5,9.7,10.1,9.9,10.2,10.3,9.9) 


> source("interval_var1.R'") 
#### 作 方差 的 区 间 人 估计， 认为 均值 已 知 


> interval_var1(X，mu=10) 














Var df a b 
1 0.055 10 0.02685130 0.1693885 
#### 作 方 差 的 区 间 估 计 ， 认 为 均值 未 知 
> interval_varl (X) 
var df a b 
1 0.05833333 9 0.02759851 0.1944164 
当 均 值 已 知 (4 = 10) 时 ， 其 方差 o? 的 区 间 估 计 为 [0.0268, 0.169], 当 均 值 未 
知 时 ， 其 方差 o? 的 区 间 估 计 为 [0.0276, 0.194. 从 计算 结果 来 看 ， 在 均值 已 知 的 
情况 下 ， 计 算 结果 更 好 一 些 . 


4.3.2 ”两 个 正 态 总 体 的 情况 


假设 有 两 个 正 态 总 体 XX~ VOL aa 和 Yo~ N(12,03), 从 1， 入 2， ee Xn 
为 来 自 总 体 X 的 一 个 样本 ， 站, 】，…, Yn 为 来 自 总 体 了 的 一 个 样本 ， 1 一 a 
为 置信 和 度 ， 关 ,YY 分 别 为 第 一 、 第 二 样本 均值 ，57, 53 分 别 为 第 一 、 第 二 样本 方 
差 . 

1. 均值 差 ji 一 yo 的 区 间 估 计 

分 三 种 情况 讨论 . 

(1) 当 两 总 体 的 方差 of, 03 已 知 时 ， 由 正 态 分 布 的 性 质 有 


2 2 
X-Y~ (和 全 + 王 ) (4.29) 
N11 722 


类 似 于 单个 总 体 区 间 估 计 的 推导 ， 得 到 jw 一 yw 的 置信 度 为 1- a 的 双 侧 置信 区 


间 : 
2 党 2 
Rp 2 rv 人 
11 No Nl 722 
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(2) 当 两 总 体 的 方差 相同 ， 即 o? 二 o2 = o2, 且 未 知 时 ， 可 以 得 到 


ye a 
ds 0 eg a (4.31) 


/1 1 
Dw pr 


(n1— 1)S?+ (nz 一 1)93 
1 十 102 一 


仿照 式 (4.22) 的 推导 ， 得 到 1 一 /Ha 的 置信 度 为 1 一 a 的 双 侧 置信 区 间 : 


[RY -tam + na — 2)S 十 十 汕 ， 
ve (4.33) 


XY+ta(ni t+ ns 一 2)9uw 1 + 二 | 


Nn1 n2 


其 中 


号, 二 (4.32) 


(3) 当 两 总 体 的 方差 of 和 03 未 知 ， 且 of 关 03 时 ， 可 以 证 明 


RR 














大 二 屋 i (4.34) 
近似 成 立 ， 其 中 
/oN (on) (oy 
0 9 
但 由 于 03,03 未 知 ， 用 样本 方差 59, 53 似 来 近似 ， 因 此 ， 
a (S2)? (S2)? 
| Ee. 


可 以 近似 地 认为 
T ~ t(D). 


由 此 得 到 yj 一 /2 的 置信 和 度 为 1 一 a 的 双 侧 置信 区 间 : 


se | le We 
Rt + Y—X+to(D) 2 (4.37) 


Nl NL2 Nl NL2 


根据 公式 (4.30) 、 公 式 (4.33) 和 公式 (4.37) 写 出 三 种 情况 下 均值 差 /ai 一 1 
区 间 估 计 的 R 程序 (程序 名 : ”interval_estimate2.R ). 
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interval_estimate2<-function(x, y, 
sigma=c(-1,-1), var.equal=FALSE, alpha=0.05){ 
ni<-length(x); n2<-length(y) 
xb<-mean(x); yb<-mean(y) 
if (all(sigma>=0))+ 
tmp<-qnorm(1-alpha/2)*sqrt (sigma[1] “2/nitsigma[2] “2/n2) 
df<-ni+n2 
} 
elset 
if (var.equal == TRUE)T 
Sw<-((n1i-1)*var (x)+(n2-1)*var (y))/ (ni+n2-2) 
tmp<-sqrt (Sw* (1/n1i+1/n2))*qt (1-alpha/2,n1+n2-2) 
df<-n1i+n2-2 
} 
elset 
Si<-var(x); S2<-var(y) 
nu<-(S1/n1+S2/n2) “2/(S1°2/n1°2/(n1-1)+S2°2/n2°2/(n2-1)) 
tmp<-qt (1-alpha/2, nu)*sqrt (Si1/n1+S2/n2) 
df<-nu 


} 
data.frame (mean=xb-yb, df=df, a=xb-yb-tmp, b=xb-yb+tmp) 


在 程序 中 ， x，y 分 别 是 来 自 两 总 体 的 数据 (样本 ) 构成 的 向 量 . sigma 是 
由 两 总 体 标准 差 构 成 的 向 量 ， 当 标准 差 已 知 时 ， 输 入 相应 的 值 ， 程 序 采 用 正 态 
分 布 计算 区 间 的 端点 ， 当 标准 差 未 知 时 ， 输 入 项 可 缺 省 ， 此 时 需要 考虑 两 总 体 
的 方差 是 否 相 同 ， 若 认为 两 总 体 方差 相同 ， 输 入 var.equal = TRUE, 程序 采用 
自由 度 为 Wi 十 nz 一 2 的 t= 分 布 计算 区 间 端 点 ， 若 认为 两 总 体 方差 不 同 ， 输 入 
var.equal = FALSE (或 缺 省 ), 程序 采用 自由 度 为 v 的 t=- 分 布 计算 区 间 端 点 . 
当 v 不 是 整数 时 ， 程 序 在 计算 三 分 布 时 ， 其 值 采 用 插值 方法 得 到 . 


程序 输出 采用 数据 框 的 形式 ,输出 两 样本 均值 差 mean, 自由 度 df, 和 均值 差 
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的 区 间 佑 计 的 端点 a，b. 
例 4.17 欲 比较 甲 、 乙 两 种 棉花 品种 的 优 劣 ， 现 假设 用 它们 纺 出 的 棉纱 强度 分 别 
服从 和 N(j1,2.182) 和 N(nua2,1.762), 试验 者 从 这 两 种 棉纱 中 分 别 抽 取样 本 X1, Xz， 
Xi00 和 站, 2,*……, Yioo (其 数据 用 计算 机 随机 产生 ， 其 随机 数 的 均值 分 别 为 
Wi 二 5.32, J42 二 5.76). 试 给 出 J41 一 ja 的 置信 系数 为 0.95 的 区 间 估 计 . 
解 : 首先 用 及 软件 产生 200 个 随机 数 ， 再 调用 函数 interval_estimate2() 
进行 计算 (程序 名 ， exam_0417.R)， 
x<-rnorm(100, 5.32,，2.18) 
y<-rnorm(100, 5.76, 1.76) 
source("interval_estimate2.R") 
interval_estimate2(x,y, sigma=c(2.18, 1.76)) 
得 到 计算 结果 
mean df a b 
1 -0.2549302 200 -0.80407 0.2942096 
因此 ， jy 一 pw 的 置信 系数 为 0.95 的 区 间 估 计 为 [一 0.804, 0.294]. 
注意 ， 由 于 数据 是 由 计算 机 随机 产生 的 ， 因此， 每 一 次 的 计算 结果 是 不 相同 
的 ， 但 总 的 趋势 是 相同 的 . 
例 4.18 某 公司 利用 两 条 自动 化 流水 线 灌浆 矿泉 水 , 现 从 生产 线 上 随机 抽取 样本 
X1 Xp Xi 和 总, 2, .…, Yi7 (数据 由 计算 机 模拟 产生 )， 它 们 是 每 瓶 矿泉 
水 的 体积 (毫升 )， 假设 这 两 条 流水 线 所 装 的 矿泉 水 的 体积 都 服从 正 态 分 布 ， 分 
别 为 N(11,0”) 和 N(142,0?). 给 定 置 信 系 数 0.95 ， 试 求 Ji 一 Ha 的 区 间 估 计 . 
讨论 两 种 情况 ， (1) 两 总 体 方差 相同 ; (2) 两 总 体 方差 不 同 。( 注 : 计算 机 产生 
随机 数 的 均值 11 = 501.1 和 Ha 二 499.7, 标准 差 ol = 二 2.4, oz = 二 4.7. ) 
解 : 首先 用 R 软件 产生 相应 的 随机 数 ， 再 调用 函数 interval_estimate2() 
进行 计算 (程序 名 :exam_0418.R). 
x<-rnorm(12,501.1,2.4) 
y<-rnorm(17, 499.7, 4.7) 





source('"interval_estimate2.R") 
interval_estimate2(x, y, var.equal=TRUE) 


interval_estimate2(x, y) 


认为 方差 相同 的 计算 结果 是 
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> interval_estimate2(x, y, var.equal=TRUE) 
mean df a b 
1 -0.7120126 27 -3.667566 2.243541 
因此 ， 在 认为 方差 相同 的 情况 下 ， Hm 一 /2 的 置信 系数 为 0.95 的 区 间 佑 计 为 
[—3.67, 2.24|. 
认为 方差 不 同 的 计算 结果 是 
> interval_estimate2(x, y) 
mean df a b 
1 -0.7120126 23.09151 -3.344401 1.920376 
因此 ， 在 认为 方差 不 同 的 情况 下 ， yi 一 /2 的 置信 系数 为 0.95 的 区 间 佑 计 为 
[—3.34, 1.92|. 


两 计算 结果 作 比 较 ， 可 认为 在 两 总 体 方差 不 同 的 假设 下 ,计算 结果 更 精确 一 








改 


在 这 两 个 例子 中 ， yw 一 /2 的 区 间 佑 计 包 含 了 零 ， 也 就 是 说 ， 1 可 能 大 于 
/2, 也 可 能 小 于 p42, 这 时 我 们 就 认为 Ai 与 J2 并 没有 显著 差异 . 
R 软件 中 的 t+.test() 函数 可 以 给 出 双 样 本 差 的 区 间 估 计 ， 如 
> t.test(x, y) 
Welch Two Sample t-test 
data: x and y 
t = -0.5594, df = 23.092, p-value = 0.5813 
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval: 
-3.344401 1.920376 
sample estimates: 
mean of x mean of y 
500.0234 500.7354 
由 于 没有 声明 ,在 计算 时 总 认为 两 样本 方差 是 不 同 的 . 如 果 认 为 方差 相同 ， 
需要 声明 ， 即 在 变量 中 给 出 var.equal=TRUE, 如 
> t.test(x, y, var.equal=TRUE) 
Two Sample t-test 
data: x and y 
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t = -0.4943, df = 27, p-value = 0.6251 
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval: 
-3.667566 2.243541 
sample estimates: 
mean of x mean of y 
500.0234 500.7354 

比较 两 种 程序 的 计算 结果 ， 发 现 由 t+.test() 函数 得 到 的 计算 结果 与 我 们 编 
写 函 数 的 计算 结果 是 完全 相同 的 ， 绪 合 前 面 的 例子 ， 帮 助 我 们 理解 t.test() 的 
函数 的 计算 过 程 ， 有关 t.test() 函数 的 其 他 用 法 ， 后 面 还 会 讨论 . 

2. 配对 数据 的 区 间 估 计 

因为 配对 数据 的 每 一 对 都 可 计算 其 差 值 d, 所 以 ， 虽 然 配对 数据 是 两 组 数据 
间 的 比较 , 但 求 出 每 一 对 差 值 后 ,就 变 成 了 单个 样本 了 ， 其 置信 区 间 可 按 单个 总 
体 均 值 1 的 区 间 估 计 的 方法 求 出 ,这 里 也 可 以 分 成 方差 oz 已 知 和 方差 03 未 知 
的 情况 来 讨论 . 由 于 前 面 对 单 个 总 体 样本 均值 估计 讨论 的 比较 仔细 ,这 里 只 给 出 
其 应 用 方法 . 
例 4.19 为 了 调查 应 用 克 砂 平治 疗 砂 肺 的 效果 ，, 今 柏 查 应 用 克 砂 平治 疗 砂 肺 的 患 
者 10 名， 记录 下 治疗 前 后 血红 蛋白 的 含量 数据 ， 如 表 4.1 所 示 .， 试 求治 疗 前 后 


表 4.1: 治疗 前 后 血红 悍 白 的 含量 数据 


1 2 3 4 5 6 7 8 9 10 
治疗 前 (X) | 11.3 15.0 15.0 13.5 12.8 10.0 11.0 12.0 13.0 12.3 


治疗 后 (Y) | 14.0 13.8 14.0 13.5 13.5 12.0 14.7 11.4 13.8 12.0 





变化 的 区 间 估 计 (a = 0.05). 
解 : 输入 数据 ， 调 入 t.test() 函数 . 
> X<-c(11.3，15.0，15.0，13.5，12.8，10.0，11.0，12.0，13.0，12.3) 
> Y<-c(14.0, 13.8, 14.0, 13.5, 13.5, 12.0, 14.7, 11.4, 13.8, 12.0) 
> t.test(X-Y) 
One Sample t-test 
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data: X-Y 
t = -1.3066, df = 9, p-value = 0.2237 
alternative hypothesis: true mean is not equal to 0 
95 percent confidence interval: 
-1.8572881 0.4972881 
sample estimates: 
mean of x 


-0.68 
所 以 得 到 ， 治 疗 前 后 变化 的 区 间 估 计 为 [一 1.86, 0.497]. 

由 于 0 包含 在 区 间 估 计 的 区 间 内 , 因此 可 以 认为 : 治疗 前 后 病人 血红 蛋白 的 
含量 无 显著 差异 . 关于 假设 检验 部 分 我 们 在 下 章 再 介绍 . 

3. 方差 比 of/03 的 区 间 估 计 

仍 分 总 体 均 值 ji 、 Ha 已 知 和 总 体 均 值 jh; 、 Ha 未 知 两 种 情况 讨论 . 

(1) pj 与 如 已 知 此 时 








_ 1 .全 ] 2 
01 = 一 Dp_ 一 Hp) 你 = 一 >_(¥ 一 po) (4.38) 
1 这 “2 记 1 
分 别 为 of 和 cz 的 最 小 无 偏 估计 ， 由 于 
pe 2 
Ci/ai 
RS 下 (721;722)， (4.39) 
03/02 
因此 
ot/ot 
P Pi_a2(n1, n2) < 37 7 < Fo (n1, 2) 一 1 一 QQ5 (4.40) 
02/03 


其 中 Pia (nN1, n2) 和 Fo (n1, ne2) 分 别 表 示 自 由 度 为 (n1, ma) 的 为 了 一 分 布 上 
1 一 Q/2 和 Qa/2 分 位 点 ， 因 此 ，o2/o2 的 置信 水 平 1 一 a 的 置信 区 间 为 
| 091/02 01/02 


| 441 
Faja(T ma2) Fla (ni, nn2) a 


(2) pi 与 12 未 知 ， 此 时 5 和 932 分 别 为 ci 和 02 的 最 小 无 偏 估计 ， 由 于 


ai 
~ 52/03 





A 天 (ma 1, 72 1), (4.42) 
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因此 
S/ot 
P Pa2(ni m1,n2—1) < 92 5 < Falni—1,n2— 1) = 1—a, (4.43) 
2/02 


则 of/02 的 置信 水 平 1 一 a 的 置信 区 间 为 


2 2 2 2 
| S1/52 , S1/52 . (4.44) 
Fo (nN1 = 1, 12 一 1) Pa2(n1 = 1,n2 = 2) 


根据 公式 (4.41) 和 公式 (4.44) 写 出 上 述 两 种 情况 下 方差 比 of/02 区 间 佑 计 
的 及 程序 (程序 名 : ”interval_var2.R ). 
interval_var2<-function(x,y, 
mu=c(Inf, Inf), alpha=0.05){ 
ni<-length(x); n2<-length(y) 
if (all (mu<Inf)){ 
Sx2<-1/ni*sum((x-mu[1]) “2); Sy2<-1/n2*sum((y-mu[2])“2) 
df1i<-ni; df2<-n2 
} 
elset 
Sx2<-var (x); Sy2<-var(y); df1<-n1-1; df2<-n2-1 
ls 
r<-Sx2/Sy2 
a<-r/gf (1-alpha/2,df1 ,df2) 
b<-r/qf (alpha/2,df1,df2) 
data.frame(rate=r, df1i=df1, df2=df2,a=a，, b=b) 
} 
在 程序 中 ， x,，y 分 别 是 来 自 两 总 体 的 数据 (样本 ) 构成 的 向 量 .， mu 是 由 两 
总 体 均 值 构成 的 向 量 , 当 均 值 已 知 时 , 输入 相应 的 值 , 程序 采用 自由 度 为 (1, m2) 
的 FE- 分 布 计算 区 间 估 计 的 两 个 端点 ， 否 则 (输入 值 缺 省 ), 程序 采用 自由 度 为 
(ni 一 1,n2 一 1) 的 F- 分 布 计算 区 间 估 计 的 两 个 端点 ， alpha 是 显著 性 水 平 ， 缺 
省 值 为 0.05. 输出 采用 数据 框 形式 ， 输 出 的 变量 有 : 样本 方差 比 rate, 第 一 自由 
度 df1, 第 二 自由 度 df2, 和 方差 比 的 区 间 佑 计 的 端点 a，Pb. 
例 4.20 已 知 两 组 数据 
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A: 79.98 80.04 80.02 80.04 80.03 80.03 80.04 79.97 
80.05 80.03 80.02 80.00 80.02 
B: 80.02 79.94 79.98 79.97 79.97 80.03 79.95 79.97 
试用 两 种 方法 作 方 差 比 的 区 间 估 计 . (1) 均值 已 知 HL 二 Ma 二 80; (2) 均值 未 
知 . 
解 : 输入 数据 , 调用 也 数 interval_var2() 进行 计算 (程序 名 : exam0419.R). 
#### 用 scan() 函数 输入 数据 
> A<-scan() 
1: 79.98 80.04 80.02 80.04 80.03 80.03 80.04 79.97 
9: 80.05 80.03 80.02 80.00 80.02 
14: 
Read 13 items 














> B<-scan() 

1: 80.02 79.94 79.98 79.97 79.97 80.03 79.95 79.97 

9: 

Read 8 items 

#### 调用 编 好 的 程序 

> source("interval_var2.R'") 

#### 方差 比 的 区 间 估 计 ， 认 为 均值 已 知 

> interval_var2(A, B, mu=c(80,80)) 
rate df1i df2 a b 

1 0.7326007 13 8 0.1760141 2.482042 

#### 方差 比 的 区 间 估 计 ， 认 为 均值 未 知 


> interval_var2(A, B) 


rate df1i df2 a b 
1 0.5837405 12 7 0.1251097 2.105269 
两 种 计算 结果 稍 有 差异 . 


从 计算 结果 可 以 看 到 ，1 包含 在 区 间 估 计 的 区 间 中 ,也 就 是 说 ， 有 理由 认为 
两 总 体 的 方差 比 为 1, 即 可 认为 两 总 体 的 的 方差 是 相同 的 . 
在 R 软件 中 ， var.test() 函数 能 够 提供 双 样 本 方差 比 的 区 间 估 计 ， 如 
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> var.test(A,B) 
F test to compare two variances 
data: A and B 
F = 0.5837, num df = 12, denom df = 7, p-value = 0.3938 
alternative hypothesis: true ratio of variances is not equal to 1 
95 percent confidence interval: 
0.1251097 2.1052687 
sample estimates: 
ratio of variances 
0.5837405 

与 我 们 所 编写 函数 的 计算 结果 相同 (均值 未 知 ), 从 这 里 也 可 以 帮助 我 们 理解 函数 
var.test() 的 计算 过 程 ， 有关 var.test() 函数 的 其 他 用 法 ， 后 面 的 内 容 中 还 
会 进行 讨论 . 
4.3.3” 非 正 态 总 体 的 区 间 估 计 

当 数 据 不 服从 正 态 分 布 时 , 估计 均值 的 一 种 有 效 的 方法 就 是 所 请 的 大 样本 方 
法 ， 即 要 求 样本 的 量 比 较 大 ， 利 用 中 心 极限 定理 进行 分 析 . 


设 总 体 X 均值 为 1 方差 为 o*, X1,X2,…,X 为 抽 自 总 体 X 的 一 个 样本 . 
因为 这 些 样本 是 独立 同 分 布 的 ， 根 据 中 心 极限 定理 ， 对 于 充分 大 的 n, 有 


DXi — np 
i=1 
近似 成 立 ， 这 样 就 导出 4 的 置信 和 度 为 1 一 a 的 双 侧 近似 置信 区 间 
x Ss 万 2 学 这 所 2 (4.45) 





在 形式 上 ， 该 式 与 式 (4.19) 完全 相同 ， 所 不 同 的 是 这 里 的 置信 系数 是 近似 的 . 
如 果 方 差 o? 是 未 知 的 ， 可 以 用 它 的 估计 5? 来 代替 o*, 由 此 得 到 相应 的 近 
似 置 信 区 间 


这 S 4 
区 = (4.46) 


D 
Vn Vn 
根据 公式 (4.45) 和 公式 (4.46) 写 出 非 正 态 总 体 区 间 估计 的 R 程序 ( 程序 


名 : interval_estimate3.R ). 


a 
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interval_estimate3<-function(x,sigma=-1,alpha=0.05){ 
n<-length(x); xb<-mean(x) 
if (sigma>=0) 
tmp<-sigma/sqrt (n)*qnorm(1-alpha/2) 
else 
tmp<-sd(x)/sqrt (n)*qnorm(1-alpha/2) 
data.frame (mean=xb, a=xb-tmp, b=xb+tmp) 

} 

在 程序 中 ，x 是 来 自 非 正 态 分 布 总 体 的 数据 (样本 ) 向 量 ， sigma 是 总 体 标 
准 差 , 当 标准 差 已 知 时 , 输入 相应 的 标准 差 ， 当 标准 差 未 知 时 , 输入 项 缺 省 , 程序 
用 样本 的 标准 差 代替 总 体 的 标准 差 . 输出 采用 数据 框 形式 ， 输 出 样本 均值 mean， 
均值 的 区 间 估 计 的 两 个 端点 a,b. 

例 4.21 某 公 司 欲 估计 自己 生产 的 电池 奉命， 现 从 其 产品 中 随机 抽取 50 只 电池 
做 寿命 试验 (数据 由 计算 机 随机 产生 , 服从 均值 1/ 入 = 2.266( 单 位: 100 小 时 ) 
的 指数 分 布 )， 求 该 公司 生产 的 电池 平均 寿命 的 置信 系数 为 95% 的 置信 区 间 . 
解 : 首先 用 R 软件 产生 相应 的 随机 数 ， 再 调用 函数 interval_estimate3() 
进行 计算 . 
> x<-rexp(50, 1/2.266) 
> source("interval_estimate3.R") 
> interval_estimate3(x) 
mean a b 


1 2.293804 1.612363 2.975244 
因此 ， 该 公司 电池 的 平均 寿命 的 置信 系数 约 为 95% 的 置信 区 间 为 [1.612, 2.975]. 





4.3.4 单 侧 置 信 区 间 估 计 


对 于 某 些 问题 ， 人 们 只 关心 9 在 某 一 方向 上 的 界限 . 例如 ， 对 于 设备 、 元 件 
的 寿命 来 说 ， 我 们 常常 关心 的 是 平均 寿命 ! 的 “下 限 ?， 而 当 我 们 考虑 产品 的 废 
品 率 p 时 ， 关 心 的 是 参数 p 的 “上 界 ”. 称 这 类 区 间 佑 计 问 题 为 单 侧 区 间 佑 计 . 
定义 4.7 设 XiX2…，,Xn 是 来 自 总 体 X 的 一 个 样本 ，0 是 包含 在 总 体 分 布 中 
的 未 知 参数 ， 对 于 给 定 的 a(0 < a < 了), 车 统计 量 96 二 0(X1, Xo 和) 满足 





P {0(X1, XXXn) <0}=1—a, 
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则 称 随 机 区 间 [2，+eco) 是 0 的 置信 度 为 1 一 Q 的 单 侧 置信 区 间 ， 称 0 为 0 的 
置信 度 为 1 一 Q 的 单 侧 置 信 下 限 . 若 统计 量 0 = 0( XXX) 满足 


P{9<0Xi, Xo,..., Xn)}=1— oa, 

则 称 随机 区 间 (一 00, 由 是 0 的 置信 度 为 1 一 a 的 单 侧 置信 区 间 ， 称 9 为 0 的 置 
信和 度 为 1 一 Qa 的 单 侧 置信 上 限 ， 

类 似 于 双 侧 置信 区 间 佑 计 的 研究 ， 对 于 给 定 的 置信 和 度 1 一 a, 选择 置信 下 限 
4 时， 应 是 (9) 越 大 越 好 ， 而 选择 置信 上 限 9 时 ， 应 是 (9) 越 小 越 好 . 

1. 一 个 总 体 求 均值 

假设 正 态 总 体 及 人 ~ NU 02)， X1, X,, Ts 人 为 来 自 总 体 X 的 一 个 样本 ， 
1 一 a 为 置信 和 度 ，X 为 样本 均值 ， 5? 为 样本 方差. 

分 别 讨论 总 体 均值 o? 已 知 和 未 知情 况 下 ， 均 值 4 的 单 侧 置 信 区 间 佑 计 . 

若 o 已 知 ， 由 式 (4.17), 得 到 


P{ 人 党 <2=1-e P 人 和 < -1 
是 得 到 / 的 置信 和 度 为 1 一 a 的 单 侧 置 信 区 间 





= [ea 一 一 0O 
x 3 et 时: = 3 (-= 及 十 人 (4.47) 
因此 ， 的 置信 度 为 1- a 的 单 侧 置 信 下 限 、 上 限 分 别 为 
二 [ea a 一 一 0O 
用 三 及 一 -万 和， 有 二 六 十 本 (4.48) 


若 0” 未 知 ， 由 式 (4.20), 得 到 


tion D)) -1-a P {md < 








et 
是 得 到 / 的 置信 和 度 为 1 一 a 的 单 侧 置信 区 间 


Le 一 1)， 十 = (-= 外 十 Le 加 0 . (4.49) 
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因此 ， 7 的 置信 和 度 为 1 一 a 的 单 侧 置信 下 限 、 上 限 分 别 为 


-ep 一世 五 一 驴 十 nl) (4.50) 
根据 公式 (4.47) 和 公式 (4.49), 以 及 双 侧 置信 区 间 的 公式 写 出 下 面 的 R 程序 
(程序 名 : ”interval_estimate4.R )， 并 可 控制 求 上 、 下 置信 区 间或 双 侧 置信 
区 间 . 
interval_estimate4<-function(x, sigma=-1, side=0, alpha=0.05){ 
n<-length(x); xb<-mean(x) 
if (sigma>=0){ 
if (side<0) 
tmp<-sigma/sqrt (n)*qnorm(1-alpha) 
a <- -Inf; b <- Xb+tmp 
} 
else if (side>0)+ 
tmp<-sigma/sqrt (n)*qnorm(1-alpha) 
a <- xb-tmp; b <- Inf 


} 
elset 
tmp <- sigma/sqrt(n)*qnorm(1-alpha/2) 
a <- xb-tmp; b <- Xb+tmp 
} 
df<-n 
} 
elset 


if (side<0){ 
tmp <- sd(x)/sqrt(n)*qt(1-alpha,n-1) 
a <- -Inf; b <- Xb+tmp 

} 

else if (side>0)T{ 
tmp <- sd(x)/sqrt(n)*qt(1-alpha,n-1) 
a <- xb-tmp; b <- Inf 
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} 
elset{ 
tmp <- sd(x)/sqrt(n)*qt(1-alpha/2,n-1) 
a <- xb-tmp; b <- xb+tmp 
} 
df<-n-1 
} 
data.frame (mean=xb, df=df, a=a, b=b) 

} 

在 程序 中 ，x 是 由 来 自 总 体 的 数据 (样本 ) 构成 的 向 量 ， sigma 是 总 体 的 标 
准 差 ， 当 标准 差 已 知 时 ， 输 入 相应 的 值 ， 程 序 采用 正 态 分 布 估计 区 间 端 点 ;否则 
(输入 项 缺 省 ), 程序 采用 分 布 估计 区 间 端 点 ， side 是 控制 求 置 信 区 间 上 下 
限 ， 知 求 置信 区 间 上 限 ， 输 入 side=-1; 者 求 置信 区 间 下 限 ， 输 入 side=1; 若 求 
双 侧 置信 区 间 , 输入 side=0 或 缺 省 . 输出 采用 数据 框 形式 , 输出 样本 均值 mean， 
自由 度 df, 和 均值 的 区 间 估 计 的 两 个 端点 a,b. 

上 述 程序 实际 上 包含 了 求 双 侧 置信 区 间 的 情况 ， 也 就 是 说 ， 函 数 interval 
_estimate4 包含 了 函数 interval_estimatel 的 功能 . 

例 4.22 从 一 批 灯泡 中 随机 地 取 5 只 作 寿 命 试验 ， 测 得 寿命 ( 以 小 时 计 ) 为 
1050, 1100, 1120, 1250, 1280. 
设 灯 泡 寿命 服从 正 态 分 布 , 求 灯泡 寿命 平均 值 的 置信 度 为 0.95 的 单 侧 置信 下 限 . 

解 : 输入 数据 ， 调 用 郴 数 interval_estimate4() 

> X<-c(1050，1100，1120，1250，1280) 


> source("interval_estimate4.R") 








> interval_estimate4(X, side=1) 
mean df a b 
1 1160 4 1064.900 Inf 
也 就 是 说 有 95% 的 灯泡 寿命 在 1064.9 小 时 以 上 . 
R 软件 中 的 ttest() 函数 也 可 以 完成 单 侧 区 间 估 计 ， 如 
> t.test(X, alternative = "greater'") 


One Sample t-test 
data: X 
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t = 26.0035, df = 4, p-value = 6.497e-06 
alternative hypothesis: true mean is greater than 0 


95 percent confidence interval: 


1064.900 Inf 
sample estimates: 
mean of x 

1160 








相应 的 区 间 估 计 为 [1064.900, oo0], 与 我 们 编写 函数 具有 相同 的 计算 结果 . 

在 程序 中 ， alternative 是 指 备 择 假 设 ， 这 个 概念 将 在 下 一 章 假 设 检验 中 
作 详 细 介 绍 . 

2. 一 个 总 体 求 方差 


假设 与 前 面相 同 ，0” 是 由 式 (4.23) 定义 ,分别 讨论 总 体 均值 A 已 知 、 未 知 
的 情况 ,方差 o? 的 单 侧 置 信 区 间 估 计 . 
当 是 已 知 时 ， 由 式 (4.24), 有 


no no 
P{ 于 < 路 -1-= Pi) < 1- 


是 得 到 o? 的 置信 和 度 为 1 一 a 的 单 侧 置信 区 间 








nd no? 
二 人 to )， [ | 0 
2 的 置信 度 为 1 a 的 单 侧 置信 下 、 上 限 为 
neo? 一 ne? 
a 0 


当 人 是 未 知 时 ， 由 式 (4.27), 有 


<xo-1 =-1-e Pfsm) < EB) 


02 CT 





是 得 到 o? 的 置信 度 为 1 一 a 的 单 侧 置信 区 间 
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02 的 置信 和 度 为 1 一 a 的 单 侧 置信 下 、 上 限 为 
2 (nC—1)5? 5 (nC— 1)S? 


Tm) "Ram 0 


根据 公式 (4.51) 和 公式 (4.54), 以 及 双 侧 置信 区 间 的 公式 写 出 下 面 的 R 程序 
(程序 名 interval_var3.R )， 并 可 控制 求 上 置信 区 间 、 双 侧 置 信 区 间 . 
interval_var3<-function(x,mu=Inf ,side=0,alpha=0.05)1{ 
n<-length (x) 
if (mu<Inf){ 
S2<-sum( (x-mu) “2)/n; df<-n 
上 
elset{ 
S2<-var(x); df<-n-1 
下 
if (side<O){ 
a<- 0 
b <- df*S2/qchisq(alpha,df) 
} 
else if (side>0){ 
a <- df*S2/gqchisq(1-alpha ,df) 
b <- Inf 
} 
elset 
a<-df*S2/qchisq(1-alpha/2,df) 
b<-df*S2/qchisq(alpha/2,df) 
} 
data.frame (var=S2, df=df, a=a, b=b) 

} 

在 程序 中 ，x 是 来 自 总 体 的 数据 (样本 ) 构成 的 向 量 ， mu 是 总 体 均值 ， 当 均 
值 已 知 时 ， 输 入 相应 的 值 ， 程 序 采用 自由 度 为 风 的 x 一 分布 计算 区 间 端 点 ， 当 
均值 未 知 时 ， 输 入 项 可 缺 省 ， 程 序 采用 自由 度 为 n 一 1 的 闪 - 分 布 计算 区 间 端 
点 ， side 是 控制 求 置信 区 间 上 下 限 ,车 求 置信 区 间 上 限 , 输入 side=-1; 若 求 置 
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信 区 间 下 限 ， 输 入 side=1; 若 求 双 侧 置信 区 间 ， 输 入 side=0 或 缺 省 ， 数 据 输 出 
采用 数据 框 的 形式 ， 输 出 值 是 样本 方差 var, 自由 度 df 和 方差 的 区 间 估 计 a，Pb. 
事实 上 ， 此 函数 已 包含 了 前 面 讲 过 的 方差 的 区 间 估 计 函 数 interval_varl 
的 功能 . 
例 4.23 求 例 4.21 中 10 个 数据 的 方差 置信 区 间 上 限 (a = 0.05). 
解 : 输入 数据 ， 调 用 函数 interval_var3() 
> X<-c(10.1,10,9.8,10.5,9.7,10.1,9.9,10.2,10.3,9.9) 


> source("interval_var3.R'") 








> interval_var3(X, side=-1) 
var df a b 
1 0.05833333 9 0 0.1578894 
0” 的 置信 上 限 为 0.1579. 
关于 单 侧 置信 区 间 佑 计 本 质 上 与 双 侧 置信 区 间 佑 计 是 相同 的 , 不 同 的 只 是 考 
虑 区 间 的 一 侧 ， 因此， 前 面 介 绍 双 侧 估计 的 方法 ， 基 本 上 可 以 平行 的 移 到 单 侧 区 
间 估 计 中 ， 有 关 的 R 软件 编程 ， 原 则 上 也 是 相同 的 . 
3. 两 个 总 体 求 均值 差 
假设 有 两 个 正 态 总 体 X ~ N(p1,01) 和 了 了 ~ N(12, 02), X1, X2, 7, Xn 
为 来 自 总 体 和 的 一 个 样本 ， 站, 了, …, 7 为 来 自 总 体 Y 的 一 个 样本 ， 1 一 a 
为 置信 和 度 ， 关 ,分别 为 第 一 、 第 二 样本 均值 ， .57, 53 分 别 为 第 一 、 第 二 样本 方 
差 . 
分 别 讨论 两 总 体 的 方差 cl, 02 已 知 、 未 知 和 是 否 相同 情况 下 , 均值 差 1 一 2 
的 单 侧 置信 区 间 佑 计 . 
当 of,02 已 知 时 ， 由 式 (4.29) 和 类 似 于 双 侧 置信 区 间 的 估计 的 推导 ， 得 到 
M1 一 ki2 的 置信 和 度 为 1 一 a 的 单 侧 置信 区 间 ; 


2 2 2 2 
BE to [中 (4.55) 
N1 No Nl 722 


当 coi= o2 = 0 且 未 知 时 ， 由 式 (4.31) 和 类 似 于 双 侧 置信 区 间 的 估计 的 推 
导 ， 得 到 Ji 一 12 的 置信 和 度 为 1 一 a 的 单 侧 置信 区 间 ; 

















Es 1 1 
区 一 了 一 ta(ni1 十 nz 一 2)Sw4/ 一 十 一 ， 十 oj (4.56) 
N11 N22 
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和 
(-= -YF+t(nit ma —2)suy/ 二 + 去 : (4.57) 
NN] Ns 
当 o 和 未知， 且 F 关 3 时 ，j 一 2 的 置信 和 度 为 1 一 a 的 单 侧 置信 区 
间 ， 


2 2 2 
到 人 (rx 
nN] No Nn1 no 


(4.58) 
其 中 乡 由 式 (4.36) 得 到 . 
根据 公式 (4.55) 公式 (4.58), 以 及 双 侧 置信 区 间 的 公式 写 出 下 面 的 R 程序 
(程序 名 interval_estimate5.R )， 并 可 控制 求 上 、 下 置信 区 间或 双 侧 置 信 
区 间 . 
interval_estimate5<-function(x, y, 
sigma=c(-1,-1), var.equal=FALSE, side=0, alpha=0.05)+ 
ni<-length(x); n2<-length(y) 
xb<-mean(x); yb<-mean(y); Zb<-xb-yb 
if (all(sigma>=0)){ 
if (side<0)+ 
tmp<-qnorm(1-alpha)*sqrt (sigma[1]“2/nit+sigma[2] “2/n2) 
a <- -Inf; b <- Zb+tmp 
中 
else if (side>0)T{ 
tmp<-qnorm(1-alpha)*sqrt (sigma[1] “2/nit+sigma[2] “2/n2) 
a <- Zzb-tmp; b <- Inf 
} 
elset 
tmp<-qnorm(1-alpha/2)*sqrt(sigma[1] “2/nitsigma[2] “2/n2) 
a <- ZzZb-tmp; b <- Zb+tmp 
} 
df<-ni+n2 
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elset 
if (var.equal == TRUE)T 
Sw<-((n1i-1)*var (x)+(n2-1)*var (y))/ (ni+n2-2) 
if (side<0){ 
tmp<-sqrt (Sw*(1/n1i+1/n2))*qt (1-alpha,ni+n2-2) 
a <- -Inf; b <- Zb+tmp 
} 
else if (side>0)T{ 
tmp<-sqrt (Sw*(1/n1i+1/n2))*qt (1-alpha,ni+n2-2) 
a <- Zzb-tmp; b <- Inf 
} 
elset 
tmp<-sqrt (Sw* (1/n1i+1/n2))*qt (1-alpha/2,n1i+n2-2) 
a <- ZzZb-tmp; b <- Zb+tmp 
} 
df<-nil+n2-2 
} 
elset 
Si<-var(x); S2<-var(y) 
nu<-(S1/n1+S2/n2) “2/(S1°2/n1°2/(n1-1)+S2°2/n2°2/ (n2-1)) 
if (side<0){ 
tmp<-qt(1-alpha, nu)*sqrt (Si1/n1i+S2/n2) 
a <- -Inf; b <- Zb+tmp 
} 
else if (side>0){ 
tmp<-qt(1-alpha, nu)*sqrt(S1/n1+S2/n2) 
a <- Zzb-tmp; b <- Inf 
} 
elset 
tmp<-qt(1-alpha/2, nu)*sqrt (Si1/n1+S2/n2) 
a <- ZzZb-tmp; b <- Zb+tmp 
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df<-nu 


} 
data.frame (mean=zb, df=df, a=a, b=b) 


在 程序 中 ，x，y 分 别 是 来 自 两 总 体 的 数据 (样本 ) 构成 的 加 量 ._ sigma 是 由 
两 总 体 标准 差 构 成 的 向 量 ， 当 标准 差 已 知 时 ， 输 入 相应 的 值 ， 程 序 采 用 正 态 分 布 
计算 区 间 的 端点 . 当 方 差 未 知 时 ， 输 入 项 缺 省 ， 此 时 需要 考虑 两 总 体 是 否 相同 ， 
若 认为 两 总 体 方差 相同 ， 输 入 var .equal=TRUE, 程序 采用 自由 度 为 n1 十 na 一 2 
的 大 分 布 计算 区 间 端 点 ; 若 认为 两 总 体 方 差 不 同 ， 输 入 var .equal=FALSE 或 缺 
省 ， 程 序 采用 自由 度 为 v 的 二 分 布 计算 区 间 端 点 . 当 v 不 是 整数 时 ， 程 序 在 计 
算 t= 分 布 时 ， 其 值 采用 插值 方法 得 到 . side 是 控制 求 置 信 区 间 上 下 限 ， 若 求 
置信 区 间 上 限 ， 输 入 side=-1; 者 求 置信 区 间 下 限 ， 输 入 side=1; 者 求 双 侧 置信 
区 间 ， 输 入 side=0 或 缺 省 ， 输出 采用 数据 框 形式 ， 输 出 样本 均值 差 mean, 自由 
度 df, 和 均值 差 的 区 间 佑 计 的 两 个 端点 a,b. 

上 述 程序 实际 上 包含 了 求 双 侧 置信 区 间 的 情况 ， 也 就 是 说 ， 函 数 interval 
_estimate5 包含 了 函数 interval_estimate2 的 功能 . 


4. 求 两 个 总 体 方 差 的 情况 

假设 与 前 面相 同 ， 51f 和 63 是 由 式 (4.38) 定义 的 ， 分别 讨论 两 总 体 均值 Ja 
与 jw 已 知 和 ji 与 Jw2 未 知情 况 下 ， 方差 比 of7/03 的 单 侧 区 间 估 计 . 

当 ju 与 jw 已 知 时 ， 由 式 (4.39), 有 


入 2 2 2 2 
P {Re < 下 二 工 一 0 Ps < 了 二 工 一 0 


G2/02 一 ~ 03/03 














因此 ， of/03 的 置信 水 平 1 一 a 的 单 侧 置 信 区 间 为 
Ee 


F,(n1,n2) Fi_a(n1, n2) 





当 j4 与 pa 未 知 时 ， 由 式 (4.42) 和 (4.43), 得 到 


S52 2 
P{ 3 < Fm bm)) eT 
02 








S1/oi 
2 {Ba es 1,n2 1) < 352703 一 1 一 CQ 
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则 of/o2 的 置信 水 平 1 一 a 的 单 侧 置 信 区 间 为 


31/32 31/32 


一 -一 一 0， 一 一 一 | . 
Fa(nai 一 1702 一 1 +ooj， | % Fi_a(ni—1,n2—2) 


(4.60) 


根据 公式 (4.59) 和 公式 (4.60), 以 及 双 侧 置信 区 间 的 公式 写 出 下 面 的 R 程序 


( 程序 名 : 


interval_var4.R )， 并 可 控制 求 上 置信 区 间 、 双 侧 置 信 区 间 . 


interval_var4<-function(x,y, 
mu=c(Inf, Inf), side=0, alpha=0.05)+ 
ni<-length(x); n2<-length(y) 
if (all(mu<Inf)) { 


} 


Sx2<-1/ni*sum( (x-mu[1])“2); df1i<-ni 
Sy2<-1/n2*sum((y-mu[2] )“2); df2<-n2 


elset 


} 


Sx2<-var (x); Sy2<-var(y); df1i<-n1i-1; df2<-n2-1 


r<-Sx2/Sy2 
if (side<0) { 


a<- 0 
b <- r/gf(alpha,df1,df2) 


else if (side>0) { 


} 


a <- r/qf(1-alpha,df1 ,df2) 
b <- Inf 


elset 


} 


a<-r/dqf (1-alpha/2,df1 ,df2) 
b<-r/qf (alpha/2,df1,df2) 


data.frame(rate=r, df1i=df1, df2=df2,a=a,，b=b) 


上 


在 程序 中 ， x，y 分 别 是 来 自 两 总 体 的 数据 (样本 ) 构成 的 向 量 . mu 


Pu 
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由 两 总 体 均 值 构成 的 向 量 ， 当 均值 已 知 时 ， 输 入 相应 的 值 ， 程 序 采用 自由 度 为 
(n1,m2) 的 上- 分布 计算 区 间 佑 计 的 两 个 端点 ;否则 (输入 缺 省 ), 程序 采用 自由 度 
为 (m1 一 1,n2 一 1) 的 分布 计 算 区 间 估 计 的 两 个 端点 . side 是 控制 求 置信 区 
间 上 下 限 ， 者 求 置信 区 间 上 限 ， 输 入 side=-1; 苛求 置信 区 间 下 限 , 输入 side=1; 
耕 求 双 侧 置信 区 间 , 输入 side=0 或 缺 省 alpha 是 显著 性 水 平 , 缺 省 值 为 0.05. 
输出 采用 数据 框 形式 ， 输 出 的 变量 有 样本 方差 比 rate, 第 一 自由 度 df1, 第 二 
自由 度 df2, 和 方差 比 的 区 间 佑 计 的 端点 a，b. 








习题 四 


4.1 设 总 体 的 分 布 密度 为 

(Qw 十 1H)z2，0<7< 1 

f(z;a) = 

0， 其 他 ， 
XX1, XXXn 为 其 样本 ， 求 参数 Qa 的 矩 估 计量 QI 和 极 大 似 然 估 计量 Go. 现 测 
得 样本 观测 值 为 

0.1 0.2 0.9 0.8 0.7 0.7 

求 参数 a 的 估计 值 . 

4.2 设 元 件 无 故障 工作 时 间 和 具有 指数 分 布 ， 取 1000 个 元 件 工作 时 间 的 记录 

数据 ， 经 分 组 后 得 到 它 的 频数 分 布 为 
组 中 值 zi 5 15 25 985 15 65 65 
频数 vi 965 245 150 100 7M 45 25 
如 果 各 组 中 数据 都 取 为 组 中 值 ， 试 用 极 大 似 然 估 计 求 入 的 点 估计 . 

4.3 为 检验 某 自 来 水 消毒 设备 的 效果 ， 现 从 消毒 后 的 水 中 随机 抽取 50 升 ， 化 验 
每 升水 中 大 肠 杆 菌 的 个 数 (假设 一 升水 中 大 肠 杆 菌 个 数 服 从 Poisson 分 布 ) 其 化 
验 结 采 如 下 : 

大 肠 杆菌 数 / 升 | 0 1 2 3 4 5 6 
升 数 17 20 10 2 1 0 0 
试问 平均 每 升水 中 大 肠 杆菌 个 数 为 多 少时 ， 才 能 使 上 述 情况 的 概率 为 最 大 ? 
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4.4 利用 忆 软 件 中 的 nlm() 函数 求解 无 约束 优化 问题 


min f(x) = (-13+Zz1+((5— 72)r2 一 2)za)? 
二 (29+zi (x2 + 1)7x2 — 14)x2), 














取 初 始点 Z40 二 (0.5, 一 2)7. 
4.5 正常 人 的 脉搏 平均 每 分 钟 72 次 ， 某 医生 测 得 10 例 四 乙 基 铝 中 毒 患 各 的 脉 
搏 数 (次 /分 ) 如 下 : 

54 67 68 78 70 66 67 70 65 69 
已 知人 的 脉搏 次 数 服从 正 态 分 布 ， 试 计算 这 10 名 患者 平均 脉搏 次 数 的 点 估计 和 
95 儿 的 区 闻 估 计 . 并 作 单 侧 区 间 估 计 ， 试 分 析 这 10 名 患者 的 平均 脉搏 次 数 是 否 
低 于 正常 人 的 平均 脉搏 次 数 . 
4.6 甲 、 乙 两 种 稻 种 分 别 播种 在 10 块 试验 田中 ， 每 块 试验 田 甲 、 乙 稻 种 各 种 一 
半 . 假设 两 稻 种 产量 ,了 均 服 从 正 态 分 布 ， 且 方差 相等 ， 收 获 后 10 块 试验 田 
的 产量 如 下 所 示 (单位 ， 千 克 ). 

甲 种 | 140 197 136 140 145 148 140 135 144 141 
忆 种 | 195 118 115 140 128 131 190 115 131 125 

求 出 两 稻 种 产量 的 期 望 差 HI 一 12 的 置信 区 间 (Qa = 0.05) . 
4.7 甲 、 忆 两 组 生产 同 种 导线 ， 现 从 甲 组 生产 的 导线 中 随机 柏 取 4 根 ， 从 已 组 
生产 的 导线 中 随机 抽取 5 根 ， 它 们 的 电阻 值 (单位 ， 2) 分别 为 

甲 组 0.143 0.142 0.143 0.137 

已 组 0.140 0.142 0.196 0.138 0.140 
假设 两 组 电阻 值 分 别 服从 正 态 分 布 N(11,0?) 和 NN(J42,0”), 02 未 知 . 试 求 1 一 2 
的 置信 系数 为 0.95 的 区 间 估 计 . 
4.8 对 习题 4.6 中 甲乙 两 种 稻 种 的 数据 作 方 差 比 的 区 间 舍 计 ， 并 用 其 舍 计 值 来 
判定 两 数据 是 否 等 方差 . 若 两 数据 方差 不 相等 ， 试 重新 计算 两 稻 种 产量 的 期 望 差 
Li 一 Ha 的 置信 区 间 (a = 0.05). 
4.9 设 电 话 总 机 在 某 段 时 间 内 接 到 的 呼唤 的 次 数 服从 参数 未 知 的 Poisson 分 布 
P(A), 现 收集 了 42 个 数据 
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接 到 呼唤 次 数 | 0 1 2 3 /4 5 6 
出 现 的 频数 7 10 12 8 9 2 0 
试 求 出 平均 呼唤 次 数 入 的 估计 值 和 它 的 置信 系数 为 0.95 的 置信 区 间 . 
4.10 已 知 某 种 灯泡 寿命 服从 正 态 分 布 ,在 某 星 期 所 生产 的 该 灯泡 中 随机 抽取 10 
只 ， 测 得 其 寿命 (单位 ， 小 时 ) 为 
1067 919 1196 785 1126 936 918 1156 920 948 
求 灯 泡 寿 命 平均 值 的 置信 度 为 0.95 的 单 侧 置信 下 限 ， 
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第 五 章 假 ? 及 检验 


假设 检验 (test of hypothesis) 是 统计 推断 中 的 一 个 重要 内 容 ， 它 是 利用 搜索 
到 的 数据 对 某 个 事先 作出 的 统计 假设 按照 某 种 设计 好 的 方法 进行 检验 , 判断 此 假 
设 是 否 正确 . 





5.1 假 ? 及 检验 的 基本 概念 


5.1.1 基本 概念 


在 数理 统计 分 析 中 ， 只 能 由 佑 计量 估计 总 体 的 参数 . 尽管 能 获得 总 体 参数 的 
无 偏 估计 ， 总 体 的 参数 始终 是 不 可 知 的 ， 只 能 通过 统计 检验 ， 由 统计 量 推断 总 体 
的 参数 . 在 统计 推断 过 程 中 ， 需 要 对 参数 提出 一 定 的 假设 ,然后 对 提出 的 假设 进 
行 假设 检验 ， 用 一 个 例子 说 明 假 设 检 验 的 基本 概念. 

例 5.1 设 某 工厂 生产 的 一 批 产 品 ， 其 次 品 率 D 是 未 知 的 . 按 规定 ， 若 p < 0.01， 
则 这 批 产 品 为 可 接受 的 ; 否则 为 不 可 接受 的 , 这 里 勿 < 0.01” 便 是 一 个 需要 的 
假设 ， 记 为 五. 假定 从 这 批 数 据 很 大 的 产品 中 随机 地 抽取 100 件 样品 ， 发 现 其 中 
有 三 件 次 品 ， 这 一 机 样 结果 便 成 为 判断 假设 及 是 否 成 立 的 人 依据， 显然， 样品 中 

火 品 个 数 念 多 对 假设 是 念 不 利 ; 反之 则 对 且 有 利 . 记 样 品 中 次 品 个 数 为 X， 问 
人 X 大 到 什么 程序 就 应 该 拒绝 万 9 

分 析 : 由 于 否定 了 卫 就 等 于 否定 了 一 大 批 产 品 ， 这 个 问题 应 该 慎重 处 理 . 
统计 学 上 常用 的 作法 是 ， 先 假定 五 成 立 ， 来 计算 X > 3 的 概率 有 多 大 ?由 于 
X 分 布 为 B(n,p), 其 中 n= 100, 容易 计算 出 已 -=ool{X 二 3} 守 0.08. 显然 ， 对 
p < 0.01, 这 概率 值 还 要 小 ， 也 就 是 说 ， 当 假设 五 (p < 0.01) 成 立时 ， 100 个 样 
品 中 有 3 个 或 3 个 以 上 次 品 的 概率 不 超过 0.08. 这 可 以 看 作 是 一 个 “小 概率 ” 事 
件 . 而 在 一 次 试验 中 就 发 生 了 一 个 小 概率 事件 是 不 大 可 能 的 . 因此 ， 事 先 作出 的 
假设 “p < 0.01” 是 非常 可 疑 的 . 在 需要 作出 最 终 判 决 时 ,就 应 该 否定 这 个 假设 ， 
而 认定 这 批 产 品 不 可 接受 ( 即 认 为 p > 0.01). 

上 述 例子 中 包含 了 假设 检验 的 一 些 重要 的 基本 概念 . 一 般 , 设 0 为 用 以 确定 
总 体 分 布 的 一 个 未 知 参 数 ， 其 一 切 可 能 值 的 集合 记 为 86. 则 关于 9 的 任 一 假设 
可 用 “9 <s 69” 来 表示 ， 其 中 9 ' 为 © 的 一 个 真子 集 . 在 统计 假设 检验 中 ， 首 先 
要 有 一 个 作为 检验 的 对 象 的 假设 ， 常 称 不 原 假设 或 零 假设 (null hypothesis). 与 
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之 相应 ， 为 使 问题 表述 得 更 明确 ， 还 篆 提 出 一 个 与 之 对 应 的 假设 ， 称 为 备 择 假设 
(alternative hypothesis). 原 假设 和 备 择 假设 常 表示 为 


万 0 : 0 € Oo, Hi: 0 € 9i， 


其 中 Bo 和 91 为 6 的 两 个 不 相交 的 真子 集 ， Ho 表示 原 假设 ， Hi 表示 备 择 假 
设 
关于 一 维 实 参 数 的 假设 常 有 以 下 三 种 形式 (其 中 0% 为 给 定 值 ): 
(1) 单 边 检 验 
万 0 : 0 < Oo, Hi: 0 > 00. 


(2) 单 边 检验 
万 0 : 0 过 00， 万 1 : 0 < Oo. 


(3) 双边 检验 
万 0 : 0 = Oo, Hi: 0 #0o. 


通常 也 称 双边 检验 为 二 尾 检 验 ， 称 单 边 检验 为 一 尾 检验 . 

假设 检验 的 依据 是 样本 . 样本 的 某 些 取 值 可 能 对 原 假设 Ho 有利， 而 另 一 些 
取 值 可 能 对 Ho 不 利 ， 因 此 可 以 根据 某 种 公认 的 合理 准则 将 样本 空间 分 成 两 部 
分 . 一 部 分 你 为 拒绝 域 (critical region), 当 样本 落 入 拒绝 域 时 ， 便 拒绝 Ho; 另 一 
部 分 可 称 为 接受 域 (acceptance region), 当 样 本 落 入 它 时 不 拒绝 Ho 

构造 拒绝 域 的 常用 方法 是 寻找 一 个 统计 量 9( 如 例 5.1 中 的 样品 中 次 品 的 件 
数 X), 9 的 大 小 可 以 反映 对 原 假设 Ho 有 利 或 不 利 ， 因此 ， 确 定 拒绝 域 W 的 问 
题 转 化 为 确定 9 的 一 个 取 值 域 C 的 问题 . 
定义 5.1 对 假设 检验 问题 ， 设 Xi, X2……,Xn 为 样本 ， W 为 样本 空间 中 的 一 个 
子 集 ， 对 于 给 定 的 a E (0,1), 车 W 满足 





Py {(X1, X2,- : ,Xn) € WwW} <a, v0OE Ovo, (5.1) 


则 称 由 W 构成 拒绝 域 的 检验 方法 为 显著 性 水 平 (evidence level) a 的 检验 . 
显著 性 水 平 a 和 常用 的 取 值 为 0.1, 0.05 和 0.01 等 . 对 一 个 显著 性 水 平 a 的 检 

验 ， 假 定 原 假设 名 成 立 ， 而 样本 落 入 拒绝 域 W 中 ， 就 意味 着 一 个 小 概率 发 生 

了 .而 在 一 次 试验 中 发 生 一 个 小 概率 事件 是 可 疑 的 ， 结 果 就 导致 了 对 原 假设 HH 
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的 否定 . 在 例 5.1 中 ， 如 果 事 先 给 定 a = 0.1, 而 P=0.01{XX > 3} = 0.08, 因此 当 
p < 0.01 时 ， 这 个 概率 还 要 小 . 根据 定义 5.1, W = {X > 3} 便 给 出 了 假设 检验 
Ho :p< po 二 0.01 的 显著 性 水 平 a = 0.1 的 拒绝 域 , 由 X= 3 便 可 拒绝 Ho. 但 
如 果 事 先 给 定 的 显著 性 水 平 a = 0.05, 这 时 ， 相 应 的 显著 性 水 平 a 的 检验 的 拒绝 
域 W = {X > ,这 时 XX = 3 就 不 能 拒绝 Ho. 由 此 可 见 ， 显 著 性 水 平 a 愈 小 ， 
则 拒绝 原 假设 愈 困难 . 换言之 , 显著 性 水 平 a 愈 小 , 则 当 样 本 落 入 拒绝 域 因 而 拒 
绝 Ho 就 愈加 可 信 . 

通常 ,作假 设 者 对 原 假 设 Ho 往往 事先 有 一 定 的 信任 度 , 或 者 一 旦 否定 了 Ho 
就 意味 着 作出 一 个 重大 的 决策 ， 需 谨 导 从事， 因此 把 检验 的 显著 性 水 平 a 取得 
比较 小 其 中 体现 了 一 种 “保护 原 假设 ”的 思想 . 


5.1.2 ”假设 检验 的 基本 思想 与 步 又 


假设 检验 的 基本 思想 : 

(1) 用 了 反 证 法 的 思想 . 为 了 检验 一 个 “假设 ”是 否 成 立 ， 就 先 假定 这 个 “ 假 
设 ” 是 成 立 的 ， 而 看 由 此 会 产生 的 后 果 . 如 果 导 致 一 个 不 合理 的 现象 的 出 现 ， 那 
么 就 表明 原先 的 假定 不 正确 ， 也 就 是 说 ， “假设 ”不 成 立 ， 因 此， 我 们 就 拒绝 这 
个 “假设”. 如 果 由 此 没有 导出 不 合理 的 现象 发 生 ， 则 不 能 拒绝 原来 这 个 “假设 ”， 
称 原 假设 是 相 容 的 . 

(2) 它 又 区 别 于 纯 数学 中 的 反 证 法 . 因为 这 里 所 谓 的 “不 合理 ”, 并 不 是 形式 
逻辑 中 的 绝对 矛盾 ， 而 是 基于 人 们 实践 中 广泛 采用 的 一 个 原则 : 小 概率 事件 在 一 
次 观察 中 可 以 认为 基本 上 不 会 发 生 . 

假设 检验 的 一 般 步 又 为 : 

(1) 对 待 检验 的 未 知 参 数 0 根据 问题 的 需要 作出 一 个 单 边 或 双边 的 假设 . 选 
择 原 假 设 的 原则 是 : 事先 有 一 定 信 任 度 或 出 于 某 种 考虑 是 否 要 加 以 “保护 ”. 

(2) 选 定 一 个 显著 性 水 平 a, 最 常用 的 是 a = 0.05, 放松 一 点 可 取 a = 0.075 
或 0.1, 严格 一 些 可 取 a = 0.025 或 0.01. 

(3) 构造 一 个 统计 量 g, 9 的 大 小 反映 对 Ho 有 利 或 不 利 ， 拒绝 域 有 形式 W = 
{9 EC 

(4) 根据 定义 5.1 来 确定 W. 
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5.1.3 ”假设 检验 的 两 类 错误 


在 根据 假设 检验 作出 统计 决断 时 ， 可 能 犯 两 类 错误 . 第 一 类 错误 是 否定 了 真 
实 的 原 假设 . 犯 一 型 错误 的 概率 定义 为 显著 性 水 平 a, 即 


a 二 P{ 否 定 Ho | Ho 是 真实 的 }， 


可 以 通过 控制 显著 性 水 平 a 来 控制 犯 第 一 类 错误 的 概率 . 
第 二 类 错误 是 接受 了 错误 的 原 假设 ， 犯 第 二 类 错误 的 概率 常用 6 表示 ， 即 


0 = P{ 接 受 Ho | Ho 是 错误 的 }. 








通常 来 讲 ， 在 给 定 样本 容量 的 情况 下 ， 如 果 减 少 犯 第 一 类 错误 的 概率 ， 就 会 
增加 犯 第 二 类 错误 的 概率 ， 而 减少 犯 第 二 类 错误 的 概率 ， 也 会 增加 犯 第 一 类 错 
误 的 概率 . 如 果 和 希望 同时 减少 犯 第 一 类 和 第 二 类 错误 的 概率 ， 就 需要 增加 样本 容 
量 ， 但 样本 容量 的 增加 ， 是 需要 增加 抽样 成 本 ， 这 有 时 是 不 可 行 的 ， 

在 统计 检验 中 ,评价 一 个 假设 检验 好 坏 的 标准 是 统计 检验 功效 ， 所 请 功效 就 
是 正确 地 否定 了 错误 的 原 假设 的 概率 ， 常 用 并 表示 ， 即 





7 二 1 一 B= P{ 否 定 Ho | Ho 是 错误 的 }. 


如 果 统 计 检 验 接受 了 原 假设 Ho :0 = 00, 则 可 以 通过 计算 置信 区 间 ， 推 断 总 
体 参 数 9 的 取 值 范围 . 置信 区 间 是 根据 一 定 置信 程度 而 佑 计 的 区 间 ， 它 给 出 了 未 
知 的 总 体 参数 的 上 下 限 . 





5.2 ”重要 的 参数 检验 


由 于 实际 问题 中 大 多 数 随机 变量 服从 或 近似 服从 正 态 分 布 , 因此 ,这 里 重点 
介绍 正 态 参数 的 假设 检验 . 按 总 体 的 个 数 ， 又 可 分 为 单个 正 态 总 体 和 两 个 正 态 总 
体 的 参数 检验 . 


5.2.1 ” 正 态 总 体 均 值 的 假设 检验 


1. 单个 总 体 的 情况 
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设 总 体 X ~ N(J007), Xi1, Xo,…，X。 是 来 自 总 体 X 的 一 个 样本 ， 均 值 / 
的 检验 分 为 ， 双 边 检验 和 单 边 检验 ， 在 讨论 中 ， 又 分 为 总 体 方差 0? 已 知 和 总 体 
方差 0? 未 知 两 种 情况 . 

(1) 双边 检验 ， 即 


Ho: k= ho, Hi: HA Wo: 


当 方 差 0? 已 知 时 ,由 第 一 章 1.5.4 节 的 统计 知识 ( 式 (1.93)) 可 知 , 当 Ho 为 
真 时 ， 





= Ey 
Z= 二 是 ~ NOD) (5.2) 
因此 用 2 来 确定 拒绝 域 ， 即 当 
[Z| > Zap2, 


则 认为 Ho 不 成 立 ， 其 中 a 为 显著 性 水 平 ， 这 种 方法 称 为 正 态 检 验 法 . 
当 方 差 0? 未知 时 ， 由 统计 知识 (1.5.4 节 的 式 (1.95)) 可 知 ， 当 Ho 为 真 时 ， 
一 


Te 


~ t(n— 1), (5.3) 
因此 当 
[TI > ta2(n — 1), 
则 认为 五 0 不 成 立 ， 这 种 方法 称 为 1 检验 法 . 
在 实际 问题 中 ,， 正 态 总 体 的 方差 通常 是 未 知 的， 所 以 常用 t 检验 法 来 检验 关 
于 正 态 总 体 均 值 的 检验 问题 . 
(2) 单 检验 ， 即 


Ho: pp Hi:p>po (或 Ho: p>po0 Hi: p< po), 
当 方 差 0? 已 知 时 ， 其 拒绝 域 为 
A 
当 方 差 o? 未 知 时 ， 其 拒绝 域 为 


T>ton-1) 或 T< -ton-1)). 


244 第 五 章 假设 检验 


在 传统 的 方法 中 , 通常 采用 查 表 的 方法 来 确定 临界 值 ， 而 在 计算 机 软件 的 计 
算 中 ,通常 是 计算 P 一 值 ， 当 已- 值 小 于 指定 的 显著 性 水 平 a, 则 拒绝 原 假设 . 
所 谓 P 一 值 就 是 随机 变量 X 大 于 (或 小 于 ) 某 个 指定 值 的 概率 . 
对 于 单 边 检 验 比 较 简 单 ， 以 正 态 分 布 为 例 ， 在 给 定 z 值 后 ， 只 需 考 虑 XX 二: 
的 概率 ， 即 
P- 值 = PIX>2)= | tr)dr=1- 2) 
= 1— pnorm(z, 0， 1) ， (5.4) 


或 者 考虑 X < z 的 概率 ， 即 
PP- 值 = P{X <z}= 三 gzZ)dz = pnorm(z, 0, 1). (5.5) 
对 于 双边 检验 ， 还 是 以 正 态 分 布 为 例 ， 在 给 定 > 值 后 ， 需 要 考虑 X > |z| 和 
X < 一 |z| 的 概率 ， 或 者 考虑 X > |z| 概率 的 两 倍 . 因此 ， PP 一 值 的 计算 公式 为 


二 2P{X <z)}， 如 果 P{X <z} < P{X > 2} 
es De > z}， 否则 


2 /wjdr， 如 果 /sajdr< 人 sodz 
2 | stojdr， 否则 
下 ls 如 果 BB(z) < (1 一 B(z)) 
2(1 一 @(2)) 否则 
| 2 pnorm(z), 如 果 pnorm(z) < 
2(1 一 pnorm(z)) 否则 


1 
2 (5.6) 
将 式 (5.4)-(5.6) 编写 成 求 P- 值 的 R 程序 (程序 名 : P_value.R) 
P_value<-function(cdf, x, paramet=numeric(0), side=0){ 
n<-length (paramet) 
P<-switch(n+1, 
cdf (x), 
cdf (x, paramet), 
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cdf (x, paramet [1] , paramet [2] ) ， 
cdf (x, paramet [1], paramet [2] , paramet [3]) 


) 
if (side<0) P 
else if (side>0) 1-P 
else 
if (P<1/2) 2*P 
else 2* (1-P) 


} 


其 中 输入 值 cdf 是 分 布 函 数 ， 如 正 态 分 布 就 是 pnorm. x 是 计算 P- 值 的 给 定 
值 ，paramet 是 对 应 分 布 的 参数 , 如 正 态 分 布 的 参数 为 paramet=c (mu，sigma). 
side 是 计算 单 侧 P- 值 或 双 侧 P- 值 的 指标 参数 ,输入 side=-1, 计算 左 侧 的 P- 
值 ; 输入 side=1, 计算 右 侧 的 P- 值 ;输入 side=0 或 缺 省 ， 计 算 双 侧 P- 值 . 函 
数 的 输出 值 是 相应 的 P- 值 . 

在 得 到 PP 一 值 后 ， 其 检验 标准 改 为 : 当 P- 值 小 于 指定 的 显著 性 水 平 a 时 ， 
则 拒绝 原 假设 ， 否 则 不 拒绝 原 假设 . 

将 上 面 进 述 介绍 的 正 态 检 验方 法 ( 式 (5.2)) 和 t+ 检验 方法 ( 式 5.3) 与 求 
P- 值 的 R 程序 相 结合 ， 编 写 求 一 个 正 态 总 体 均值 检验 的 R 程序 (程序 名 : 


mean.test1.R) 


mean.test1i<-function(x, mu=0, sigma=-1, side=0){ 
source("P_value.R") 
n<-length(x); xb<-mean(x) 
if (sigma>0){ 
Z<- (xb-mu)/(sigma/sqrt(n) ) 
P<-P_value(pPnorm，Z，side=side) 
data.frame (mean=xb, df=n, Z=z, P_value=P) 
} 
elset{ 
t<-(xb-mu)/(sd(x)/sqrt (n)) 
P<-P_value(pt, t, paramet=n-1, side=side) 


data.frame (mean=xb, df=n-1, T=t, P_value=P) 
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} 
在 上 述 程序 中 , 输入 值 x 是 数据 (样本 ) 构成 的 癌 量 . mu 是 原 假设 Jo. sigma 
是 标准 差 c, 当 o 已 知 时 , 输入 相应 的 值 ， 程序 采用 正 态 检验 法 ; 当 o 未知 时 ( 缺 
省 ), 程序 采用 二 检验 法 side 是 指 双 边 检 验 还 是 单 边 检 验 . 输入 side = 0 
(或 缺 省 ), 程序 作 双边 检验 ， 其 备 择 假 设 为 ， 风 和 Ho 输入 side = -1 (或 <0 的 
值 ), 程序 作 单 边 检验 ， 其 备 择 假 设 为 ， /< Ho; 输入 side = 1 (或 > 0 的 值 ), 程 
序 作 单 边 检验 ， 其 备 择 假设 为 : 从 > jo. 
程序 以 数据 框 形式 输出 ， 输 出 的 内 容 有 : 均值 (mean), 自由 度 (df), 统计 量 
(T 值 或 z 值 ), 和 P- 值 . 
例 5.2 某 种 元 件 的 寿命 X (以 小 时 计 ) 服从 正 坟 分 布 N(1,0?), 其 中 1,0? 均 未 
知 ， 现 测 得 16 只 元 件 的 寿命 如 下 : 
159 280 101 212 224 379 179 264 
222 362 168 250 149 260 485 170 


问 是 否 有 理由 认为 元 件 的 平均 寿命 大 于 225 (小 时 )? 
解 : 按 题 意 (注意 前 面 提 到 的 假设 检验 运用 了 反 证 法 的 思想 ), 需 检 验 


万 0 : HK < 10 三 225， Hi: HK > /0 = 225. 


此 问题 是 单 边 检 验 问题 . 
输入 数据 ， 调 用 函数 mean .test1(), 得 到 
> X<-c(159，280，101，212，224，379，179，264， 
222，362，168，250，149，260，485，170) 
> Source('mean.test1.R"D) 
> mean.test1(X，mu=225，side=1) 
mean df T Pvalue 
1 241.5 15 0.6685177 0.2569801 
计算 出 了 一 值 是 0.2569801(> 0.05), 不 能 拒绝 原 假设 ,接受 Ho, 即 认 为 平均 寿命 
不 大 于 225 小 时 . 
实际 上 ,参数 的 区 间 估 计 也 作假 设 检验 ， 换 句 话 说 ， 区 间 估 计 与 假设 检验 本 
质 上 是 相同 的 ， 对 例 5.2 中 的 数据 作 单 侧 区 间 估 计 (估计 下 限 )， 
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> source("../chapter04/interval_estimate4.R") 
> interval_estimate4(X, side=1) 
mean df a Db 


1 241.5 15 198.2321 Inf 
置信 下 限 为 198.23 < 225, 因此 只 能 接受 原 假设 , 认为 平均 寿命 不 大 于 225 小 时 . 


在 及 软件 中 ， 函 数 t.test() 提供 了 工 检验 和 相应 的 区 间 估 计 的 功能 ， 
t.test() 的 使 用 格式 如 下 : 
t.test(x, y = NULL， 





alternative = c('"two.sided", "less", "greater'"), 
mu = 0, paired = FALSE, var.equal = FALSE, 
conf.level = 0.95, ...) 


其 中 x,y 是 由 数据 构成 向 量 (如 果 只 提供 x, 则 作 单 个 正 态 总 体 的 均值 检验 ， 否 
则 作 两 个 总 体 的 均值 检验 ), alternative 表示 备 择 假设 ，two .sided( 缺 省 ) 表示 
双边 检验 ( 肋 : 1 六 Jo), 1ess 表示 单 边 检 验 ( 古 : J < J0), greater 表示 单 边 检 
验 (Hi :> 10). mu 表示 原 假设 Jo. conf .level 是 置信 水 平 ， 即 1 一 a, 通常 是 
0.95. 


再 用 t.test() 函数 计算 例 5.2. 


> t.test(X, alternative = "greater", mu = 225) 
One Sample t-test 

data: X 
t = 0.6685, df = 15, p-value = 0.257 
alternative hypothesis: true mean is greater than 225 
95 percent confidence interval: 

198 .2321 ID 
sample estimates : 
mean of x 
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可 以 看 到 ， 所 计算 的 了 值 、P- 值 、 和 均值 ， 以 及 区 间 倍 计 值 与 我 们 所 编 
程序 的 计算 值 完全 相同 ， 因 此 ， 可 以 利用 函数 t.test() 对 单个 总 体 正 态 数据 作 
均值 检验 和 区 间 佑 计 . 由 这 个 例子 和 自 编 的 程序 的 计算 结果 ， 可 以 使 我 们 加 深 对 
R 软件 中 的 t.test() 函数 的 认识 .当然 ，t.test() 函数 还 有 更 强大 的 功能 ， 
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这 些 功 能 我 们 将 在 后 面子 以 介绍 . 


2. 两 个 总 体 的 情况 
而 是 来 自 总 体 X~ N(1, of) 的 样本 ， 2 ， Y2， Ya 


假设 Xi X2,…… 
来 自 总 体 ~ N(12,02) 的 样本 ， 且 两 样本 独立 ， 其 检验 问题 有 


是 


双边 检验 : Ho: =p Hi: Wi #2, 
单 边 检验 工 Ho: pp Hi: HW> pk, 
Hi: Ha < ko2. 


单 边 检验 II Ho: 和 二 No， 


分 几 种 情况 讨论 . 
(方差 ci 和 o2 已 知 由 统计 知识 (1.5.4 节 的 式 (1.97)) 可 知 ， 当 Ho 为 真 





时 ， a 
Z= 7 ~ N(0,1). (5.7) 
因此 ， 当 2 满足 ( 称 为 拒绝 域 ) 
双边 检验 : [Z| > Za 
单 边 检验 工 Z > Zo, 
单 边 检验 I: 2 < 一 Zo. 


则 认为 加 不 成 立 ， 此 方法 仍 称 为 正 态 检验 法 . 
(2) 方差 of = 02 = 0? 未 知 。 5? 和 S32 分别 是 X 和 了 的 样本 方差 . 由 统 
计 知 识 (1.5.4 节 的 式 (1.98)) 可 知 ， 当 Ho 为 真 时 ， 
= t(ni 十 na 一 2)， (5.8) 
十 


”| 


人 三 
其 中 
二 (ma 一 1)S? 十 (72 一 DS (5.9) 
Nn] 十 no 一 2 


因此 ， 当 了 满足 ( 称 为 拒绝 域 ) 
单 边 检验 工 
单 边 检验 II: 


| 了 | > ta/2 (nN1 十 702 一 2)， 
和 > ta(n1 十 n2 一 2)， 
7 < —ta (ni1 十 702 一 2.): 
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则 认为 Ho 不 成 立 ， 此 方法 仍 称 为 t- 检验 法 . 
(3) 方差 of 关 02 未 知 。 Sf 和 53 分 别 是 XX 和 Y 的 样本 方差 .可 以 证 明 


及 一 六 
T= ~ +1(7 5.10 
(2) (5.10) 
Nn1 n2 


近似 成 立 ， 其 中 
SN (62 C527 
(是 + 是 ) (GT se， 
因此 ， 当 工 满足 ( 称 为 拒绝 域 ) 


双边 检验 : eal 
单 边 检验 I 7 了 > t4(D)， 
单 边 检验 II: 了 < -t,(D). 


则 认为 Ho 不 成 立 . 
根据 公式 (5.7) 、 公 式 (5.8) 和 公式 (5.10) 写 出 三 种 情况 下 两 总 体 均 值 检 验 
的 R 程序 (程序 名 : mean.test2.R ). 
mean.test2<-function(x, y, 
sigma=c(-1, -1), var.equal=FALSE, side=0){ 
source("P_value.R'") 
ni<-length(x); n2<-length(y) 
xb<-mean(x); yb<-mean(y) 
if (all(sigma>0)){ 
z<-(xb-yb)/sqrt (sigma[1] “2/ni+tsigma[2] “2/n2) 
P<-P_value(pnorm, Zz, side=side) 
data.frame (mean=xb-yb, df=n1i+n2, Z=z, P_value=P) 
} 
elset 
if (var.equal == TRUE)T 
Sw<-Ssqrt(((n1-1)*Var(X)+(n2-1)*xVar(y))/ (nil+n2-2)) 
t<-(xb-yb)/ (Sw*sqrt (1/n1i+1/n2)) 
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nu<-ni+n2-2 
} 
elset 
Si<-var(x); S2<-var(y) 
nu<-(S1/n1+S2/n2) “2/(S1°2/n1°2/(n1-1)+S2°2/n2°2/(n2-1)) 
t<-(xb-yb)/sqrt (S1/n1+S2/n2) 
} 
P<-P_value(pt, t, paramet=nu, side=side) 


data.frame (mean=xb-yb, df=nu, T=t, P_value=P) 


在 上 述 程序 中 ， 输 入 值 x,y 是 来 自 两 个 总 体 数 据 构成 的 向 量 . sigma 是 由 
两 总 体 标准 差 构 成 的 向 量 ， 当 标准 差 已 知 时 ,输入 相应 的 值 ， 程 序 采用 正 态 检验 
法 ;， 当 标准 差 未 知 时 ( 缺 省 ), 程序 采用 二 检验 法 . var.equal 是 逻辑 变量 ， 
输入 var .equal=TRUE, 表示 认为 两 总 体 的 方差 相同 ; 输入 var .equal=FALSE (或 
缺 省 ), 表示 认为 两 总 体 的 方差 不 同 . side 是 指 双边 检验 还 是 单 边 检验 .输入 
side = 0 (或 缺 省 ), 程序 作 双 边 检验 ， 其 备 择 假 设 为 : 1 关 12; 输入 side = -1 
(或 < 0 的 值 ), 程序 作 单 边 检 验 ， 其 备 择 假 设 为 : 1 < 1w; 输入 side = 1 (或 
> 0 的 值 ), 程序 作 单 边 检 验 ， 其 备 择 假设 为 ， Hi > p12. 


程序 以 数据 框 形式 输出 ， 输 出 的 内 容 有 均值 的 差 (mean), 自由 度 (df), 统 
计量 (T 值 或 z 值 ), 和 P- 值 . 
例 5.3 在 平 护 上 进行 一 项 试验 以 确定 改变 操作 方法 的 建议 是 否 会 增加 钢 的 得 率 ， 
试验 是 在 同一 个 平 护 上 进行 的 . 每 炼 一 炉 钢 时 除 操作 方法 外 ， 其 他 条 件 都 尽 可 能 
做 到 相同 ， 先 用 标准 方法 炼 一 炉 ， 然 后 用 新 方法 炼 一 炉 ， 以 后 交替 进行 ， 各 炼 了 
10 炉 ， 其 得 率 分 别 为 








标准 方法 78.1 72.4 76.2 74.3 77.4 78.4 76.0 75.5 76.7 77.3 
新 方法 79.1 81.0 77.3 79.1 80.0 79.1 79.1 77.3 80.2 82.1 


设 这 两 样本 相互 独立 ， 且 分 别 来 自 正 态 总 体 N(11,0?) 和 N(j2,0?), 其 中 ,12 
和 o? 未知， 问 新 的 操作 能 否 提高 得 率 ? ( 取 a 二 0.05 ) 
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解 : 根据 题 意 ， 需 要 假设 
Ho: mk, Hi: ph < Wy, 
这 里 假定 ol = 02 = 0 因此 选择 二 检验 法 ,方差 相同 的 情况 (程序 名 : 
exam_0503 .R). 
X<-c(78.1,72.4,76.2,74.3,77.4,78.4,76.0,75.5,76.7,77.3) 
Y<-c(79.1,81.0,77.3,79.1,80.0,79.1,79.1,77.3,80.2,82.1) 
source("mean.test2.R") 
mean.test2(X, Y, var.equal=TRUE, side=-1) 
得 到 
mean df T P_value 
1 -3.2 18 -4.295743 0.0002175927 
计算 出 P- 值 是 0.0002176 和 0.05, 故 拒绝 原 假设 ， 即 认为 新 的 操作 方 能 够 提高 


4 日 或 
得 率 





如 果 认 为 两 总 体 方差 不 同 ， 则 


> mean.test2(X, Y, side=-1) 


mean df T P_value 
1 -3.2 17.31943 -4.295743 0.0002354815 
仍然 是 拒绝 原 假设 . 


实际 上 ,利用 区 间 估 计 也 可 以 作假 设 检验 ,例如 ,利用 两 个 总 体 均值 差 的 区 
间 估 计 作 假设 检验 ， 
#### 调用 两 个 总 体 均 值 差 的 区 间 佑 计 函 数 
> source("../chapter04/interval_estimate5.R") 
#### 作 单 侧 区 间 估 计 ， 并 认为 两 总 体 方差 相同 


> interval_estimate5(X, Y, var.equal=TRUE, side=-1) 





mean df a b 


1 -3.2 18 -Inf -1.908255 
#### 作 单 侧 区 间 估 计 ， 并 认为 两 总 体 方差 不 同 


> interval_estimate5(X,Y, side=-1) 





mean df a b 


1 -3.2 17.31943 -Inf -1.905500 
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无 论 是 认为 两 样本 方差 相同 ,还 是 认为 两 样本 方差 不 同 ， 其 均值 差 的 上 限 佑 
计 均 < 0, 也 就 是 说 1 一 jp2 < 0, 即 jw < pz. 


在 R 软件 中 ， 函 数 t.test() 也 可 以 作 双 样本 检验 ， 其 使 用 格式 为 
t.test(x, y = NULL, 


alternative = c('"two.sided", "less", "greater'"), 
mu = 0, paired = FALSE, var.equal = FALSE, 
conf.level = 0.95, ...) 


其 中 x，y 是 来 自 两 总 体 数 据 构成 的 向 量 ，alternative 是 备 择 假设 ,，two .sided 
( 缺 省 ) 表示 双边 检验 (1 : 1 关 142), less 表示 单 边 检验 (Hi : Hi < /2), greater 
表示 单 边 检验 (Hi : 1 > 1/2). var.equal 是 逻辑 变量 ， var.equal=TRUE 表示 
认为 两 样本 方差 相同 ; var .equal=FALSE( 缺 省 ) 表示 认为 两 样本 方差 不 同 . 
用 t.test() 函数 对 上 例 进行 计算 . 
> t.test(X, Y, var.equal=TRUE, alternative = "less'") 
Two Sample t-test 

data: X and Y 
t = -4.2957, df = 18, p-value = 0.0002176 
alternative hypothesis: true difference in means is less than 0 
95 percent confidence interval: 

-Inf -1.908255 
sample estimates: 
mean of x mean of y 


76.23 79 .43 


从 计算 结果 可 以 看 到 ，t.test() 不 但 可 以 作 两 个 总 体 的 均值 检验 ， 还 可 以 
作 两 个 总 体 均 值 差 的 区 间 佑 计 ， 其 计算 结果 与 我 们 编程 的 计算 结果 相同 . 这 一 点 
可 以 很 好 地 帮助 我 们 理解 t.test() 函数 的 功能 与 计算 过 程 . 

结合 单个 总 体 的 均值 检验 ， 发 现 t.test() 函数 ， 可 以 作 单 、 双 总 体 的 均值 
检验 ， 还 提供 了 均值 的 区 间 佑 计 . 完成 均值 检验 与 估计 的 全 部 工作 . 

事实 上 , 均值 的 区 间 估 计 与 均值 的 假设 检验 本 质 上 是 对 一 个 问题 从 两 个 不 同 
角度 的 讨论 ， 有 着 内 在 的 联系 ， 这 也 就 是 为 什么 t.test() 将 区 间 估 计 与 假设 检 
验 放 在 一 起 的 原因 ， 可 以 使 我 们 从 多 角度 对 问题 进行 判断 ， 提 高 判断 的 准确 性 . 


5.2 重要 的 参数 检验 253 


3. 成 对 数据 的 一 检验 

如 有 果 数 据 是 成 对 出 现 的 , 即 (Xi, 3)，(i 二 1,2,…,n), 则 认为 用 成 对 t= 检验 
要 优 于 双 样 本 均值 检验 . 所 请 成 对 三 检验 就 是 令 Zi; = Xi 一 】, (i = 1,2,…,m)， 
对 2 作 单 样 本 均值 检验 . 例如， 对 于 例 5.3 中 的 数据 就 应 作成 对 三 检验 . 
> X<-c(78.1,72.4,76.2,74.3,77.4,78.4,76.0,75.5,76.7,77.3) 
> Y<-c(79.1,81.0,77.3,79.1,80.0,79.1,79.1,77.3,80.2,82.1) 
> t.test(X-Y, alternative = "less'") 

One Sample t-test 
data: X-Y 
t = -4.2018, df = 9, p-value = 0.001150 
alternative hypothesis: true mean is less than 0 
95 percent confidence interval: 
-Inf -1.803943 

sample estimates: 
mean of x 


i 沪 
同样 说 明 ， 新 方法 优 于 标准 方法 ， 但 它 计 算 的 P 一 值 更 小 ， 说 明 判 断 更 可 靠 . 


5.2.2 ” 正 态 总 体 方差 的 假设 检验 
1. 单个 总 体 的 情况 
设 Xi X2,.…, Xn 是 来 自 总 体 X ~ NU a”) 的 样本 ， 其 检验 问题 为 


双边 检验 : Ho: o2=02, Hi: 0o2#¥05, 
单 边 检验 工 Ho: o2<ot, Hi: o>o, 
单 边 检 验 I: 而: o>08 多: oo<o. 
分 均值 4 已 知 和 均值 1 未 知 两 种 情形 讨论 . 
pe 1 
当 均 值 4 是 已 知 时 ， 当 Fo 为 真 时 ,， 令 人 三 二 》_ (Xi 一 四 *, 则 有 








人 (5.12) 
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因此 用 来 确定 拒绝 域 ， 即 当 


双边 检验 : 和 Xa2(n) 或 x < XI_a2(n), 
单 边 检 验 I: x? > x (n)， 
单 边 检验 I x < x?_,(n). 





则 认为 名 不 成 立 . 
当 均 值 / 是 未 知 时 ， 当 为 真 时 ， 有 
rE (5.13) 
00 


因此 用 x? 来 确定 拒绝 域 ， 即 当 


双边 检验 : X22(n 一 1]) 或 < Xi_a2(n 二 站 让 
单 边 检验 他 >X2 人 一 1 
单 边 检 验 I MX2< 和 sn 一 1 

则 认为 Ho 不 成 立 . 

与 均值 检验 相同 ,在 计算 中 仍 用 已- 值 的 大 小 来 判断 是 否 拒绝 Ho. 当 P- 值 
小 于 a, 则 拒绝 五 o; 否则 不 拒绝 Ho. 关于 P- 值 的 计算 方法 与 均值 检验 的 方法 
相同 . 

根据 公式 (5.12) 和 公式 (5.13) 写 出 总 体 均值 已 知 和 均值 未 知 两 种 情况 方差 
检验 的 R 程序 (程序 名 :var .testt.R), 在 程序 中 调用 P- 值 计算 程序 . 

var.test1i<-function(x, sigma2=1, mu=Inf, side=0){ 

source("P_value.R") 
n<-length (x) 
if (mu<Inf){ 
S2<-sum( (x-mu) “2)/n; df=n 
} 
elset{ 
S2<-var(x); df=n-1 
} 
chi2<-df*S2/sigma2; 
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P<-P_value(pchisq, chi2, paramet=df, side=side) 
data.frame(var=S2, df=df, chisq2=chi2, P_value=P) 
} 
在 上 述 程 序 中 , 输入 值 x 是 数据 构成 的 向 量 . sigma2 是 原 假设 00. mu 是 均 
值 ， 当 已 知 时 , 输入 相应 的 值 ， 程 序 采用 自由 度 为 n 的 Xx? 检验， 否则 ( 缺 省 )， 
程序 采用 自由 度 为 n 一 1 的 x 检验 . side 是 指 双 边 检验 还 是 单 边 检验 .输入 
side = 0 (或 缺 省 ), 程序 作 双边 检验 ， 其 备 择 假设 为 ，o 入 co0; 输入 side = -1 
(或 < 0 的 值 ), 程序 作 单 边 检 验 ， 其 备 择 假 设 为 : 0” < cl; 输入 side = 1 (或 
> 0 的 值 ), 程序 作 单 边 检验 ， 其 备 择 假设 为 ， 0? > o0. 
程序 以 数据 框 形式 输出 ， 输 出 的 内 容 有 : 方差 (var), 自由 度 (df), 统计 量 
(chisq2), 和 P- 值 . 
例 5.4 从 小 学 五 年 级 男 学 生 中 抽取 20 名 ,测量 其 身高 (单位: 厘米 )， 其 数据 如 
下 : 
136 144 143 157 137 159 135 158 147 165 
158 142 159 150 156 152 140 149 148 155 


以 a 二 0.05 作假 设 检 验 : 


(1) Ho: 14=149, Hi: nA 149; 
(2) Ho: o2=75, Hi: oF75. 





解 : 输入 数据 , 用 上 面 编写 的 程序 , 就 方差 已 知 和 方差 未 知情 况 作 均值 检验 ， 
就 均值 已 知 和 均值 未 知 的 情况 作 方差 检验 . 

#### 用 scan() 函数 读数 据 

> X<-scan() 

1: 136 144 143 157 137 159 135 158 147 165 

11: 158 142 159 150 156 152 140 149 148 155 

21 : 

Read 20 items 

#### 调用 均值 检验 函数 mean.test1 


> source('"mean.test1.R'") 
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#### 认为 方差 已 知 ， 作 均值 检验 


> mean.test1i(X, mu=149, sigma=sqrt (75)) 
mean df Zz Pvalue 

1 149.5 20 0.2581989 0.7962534 

#### 认为 方差 未 知 ， 作 均值 检验 

> mean.test1(X，mu=149) 
mean df T P_value 

1 149.5 19 0.2536130 0.8025186 

#### 调用 均值 检验 函数 var .test1 


> source('"var.test1.R') 


#### 认为 均值 已 知 ， 作 方差 检验 
> Var.test1(X，sigma2=75，mu=149) 
var df chisq2  P_value 
1 74.1 20 19.76 0.9460601 
#### 认为 均值 未 知 ， 作 方差 检验 
> var.test1(X, sigma2=75) 
var df chisdq2  P_value 


1 77.73684 19 19.69333 0.8264785 
无 论 是 哪 种 方法 ， 其 P 一 值 均 大 于 0.79, 因此 接受 原 假设 . 


2. 两 个 总 体 的 情况 


设 A1)AX2)， “ 5 是 来 自 总 体 X~ N(n1,0?) 的 样本 ， 了， Y2,: 3 sn 是 来 
自 总 体 Y ~ N(12,03) 的 样本 ， 且 两 样本 独立 ， 其 检验 问题 为 


、 De 2 /2 
双边 检验 : Ho: of=03, Hi: of#K 02, 
单 边 检验 工 Ho: of<o3, Hi: of>o2, 
单 边 检 验 I: Ho: of>02, Hi: of<o2. 


分 均值 ju, 12 已 知 和 未 知 两 种 情况 讨论 . 


nNn1 n2 


ee 1 i 1 
当 jn 与 /2 已 知 时 , 令 冠 = 二 -J), 诚 = 人 一 /2)2, 当 


2 一 1 2 一 1 
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而 为 真 时 ， 
P= ~ Fn,n), (5.14) 
02 
因此 用 来 确定 拒绝 域 ， 即 当 
双边 检验 : Fr > Fo (n1, n2) 或 了 P< Fa2(n1, n2), 


单 边 检验 工 FPF > FF,(n1,n2), 
单 边 检验 I: F< (ni,n2). 


则 认为 Ho 不 成 立 . 
当 fj 与 jw2 未 知 时 ， 当 Ho 为 真 ， 有 
31 
2 


因此 用 来 确定 拒绝 域 ， 即 当 


双边 检验 : r= Fo (ni 一 了 72 一 1) 或 F< Pi_a2(N1 一 工 722 一 1)， 
单 边 检验 I: FPF> FniD1,n— 1), 
单 边 检验 II: Va 二 Fi_a(n1 1,n2 二 1). 


则 认为 Ho 不 成 立 . 
根据 公式 (5.14) 和 公式 (5.15) 写 出 均值 已 知 和 均值 未 知 两 种 情况 方差 比 检 
验 的 R 程序 (程序 名 : ”var.test2.R ). 
var.test2<-function(x, y, mu=c(Inf, Inf), side=0)1{ 
source("P_value.R") 
ni<-length(x); n2<-length(y) 
if (all (mu<Inf)){ 
Sx2<-sum( (x-mu[1])“2)/ni; Sy2<-sum((y-mu[2])“2)/n2 
df1=n1; df2=n2 
} 
elset{ 
Sx2<-var (x); Sy2<-var(y); df1i=n1-1; df2=n2-1 
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r<-Sx2/Sy2 

P<-P_value(pf, r, paramet=c(df1, df2), side=side) 

data.frame(rate=r, df1i=df1, df2=df2, F=r, P_value=P) 
} 


在 程序 中 ，x，y 是 来 自 两 总 体 的 数据 向 量 . mu 是 均值 ， 当 均值 已 知 时 , 采 
用 上 自由 度 为 (n,n2) 的 了 -分布 计 算 下 值 ; 否则 , 采用 自由 度 为 (ni 一 1,n2 一 1) 
的 了 一 分 布 计算 FF 值 . side 是 指 双 边 检 验 还 是 单 边 检验 ， 当 side = 0 作 双 
边 检 验 ， 其 备 择 假设 为 。 of 关 02; 当 side < 0 作 单 边 检验 ， 其 备 择 假设 为 : 
of < 03; 当 side > 0 作 单 边 检验 ， 其 备 择 假设 为 ， cl > o2. 

输出 采用 数据 框 形式 ， 输 出 的 变量 有 : 方差 比 rate, 第 一 自由 度 df1, 第 二 
自由 度 df2, F 值 和 P- 值 . 
例 5.5 试 对 例 和 .3 中 的 数据 假设 检验 


2 2 E 2 2 
Ho : OT 二 Oo2， Hi . O1 天 oo2. 


解 : 输出 数据 ， 调 用 var.test2() 函数 

> X<-c(78.1,72.4,76.2,74.3,77.4,78.4,76.0,75.5,76.7,77.3) 
> Y<-c(79.1,81.0,77.3,79.1,80.0,79.1,79.1,77.3,80.2,82.1) 
source('"var.test2.R'") 


var.test2(X,Y) 


M4 


Vv 


rate df1 df2 F  P_value 
1 1.494481 9 9 1.494481 0.5590224 
PP 一 值 为 0.559 福 0.05, 因此 ， 无 法 拒绝 原 假 设 ， 认 为 两 总 体 的 方差 是 相同 的 . 
这 也 说 明 在 例 5.3 中 ， 假 设 两 总 体 方差 相同 是 合理 的 . 
用 两 总 体 方差 比 的 区 间 估 计 也 能 作 样 本 的 方差 检验 , 
#### 调用 方差 的 区 间 估 计 函 数 interval_var4 
> source("../chapter04/interval_var4.R") 
#### 作 方差 比 的 区 间 估 计 ， 考 虑 均值 未 知 的 情况 
> interval_var4(X, Y) 
rate df1 df2 a b 
1 1.494481 9 9 0.3712079 6.016771 
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由 于 方差 比 1 在 所 佑 计 的 区 间 内 ， 因 此 认为 方差 是 相同 的 . 


在 R 软件 中 ， var.test() 函数 提供 作 方 差 比 的 检验 和 相应 的 区 间 佑 计 . 
该 函数 的 使 用 格式 是 


var.test(x, y, ratio = 1, 





alternative = c('"two.sided", "less", "greater'"), 
conf.level = 0.95, ...) 
其 中 x,y 是 来 自 两 样本 数据 构成 的 向 量 ， ratio 是 方差 比 的 原 假设 ， 缺 省 值 为 
1. alternative 是 备 择 假 设 ， two .sided 表示 双边 检验 (Hi : of/03 冯 ratio)， 
less 表示 单 边 检验 (1 : of/03 < ratio), greater 表示 单 边 检验 (Hi :of/02 > 
ratio). 
下 面 用 var.test() 函数 计算 例 5.5. 
> var.test (X,Y) 
F test to compare two variances 
data: X and Y 
F = 1.4945, num df = 9, denom df = 9, p-value = 0.559 
alternative hypothesis: true ratio of variances is not equal to 1 
95 percent confidence interval: 
0.3712079 6.0167710 
sample estimates: 
ratio of variances 
1 .494481 
与 我 们 前 面 的 计算 结果 是 完全 相同 的 . 后 面 还 将 介绍 直接 用 var.test() 作 双 总 
体 方差 比 的 检验 或 方差 比 的 区 间 估 计 . 这 个 例子 也 使 我 们 可 以 更 清楚 的 了 解 函数 
var.test() 的 计算 过 程 . 


5.2.3 ”二 项 分 布 总 体 的 假设 检验 

前 面 介绍 的 是 正 态 总 体 的 假设 检验 问题 , 这 里 介绍 非 正 态 总 体 的 检验 问题 . 
关于 非 正 态 总 体 的 检验 有 很 多 ， 这 里 只 介绍 二 项 分 布 的 假设 检验 问题 . 

类 似 于 正 态 分 布 , 我 们 也 可 以 推导 出 二 项 分 布 的 统计 量 和 所 服从 的 分 布 ， 导 


出 相应 的 估计 值 (点 估计 和 区 间 估 计 ), 以 及 相应 的 假设 检验 方法 . 这 里 我 们 仅 给 
出 R 软件 中 关于 二 项 分 布 检验 和 佑 计 的 函数 binom.test(). 
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binom.test() 函数 的 使 用 方法 是 : 
binom.test(x, n, p = 0.5， 
alternative = c('"two.sided", "less", "greater'"), 
conf.level = 0.95) 
其 中 x 是 成 功 的 次 数 ， 或 是 一 个 由 成 功 数 和 失败 数 构成 的 二 维 向 量 ， n 是 试验 
总 数 ， 当 x 是 二 维 向 量 时 ， 此 值 无效 . p 是 原 假设 的 概率 . 
例 5.6 有 一 批 蔬菜 种 子 的 平均 发 芽 兴 po = 0.85, 现 随机 柏 取 500 粒 ， 用 种 衣 剂 
进行 浸种 处 理 ， 结 果 有 445 粒 发 芽 ， 试 检验 种 衣 剂 对 种 子 发 芽 率 有 无 效果 . 
解 : 根据 题 意 ， 所 检验 的 问题 为 ; 


Ho :p= po = 0.85, Hi :pA po. 


调用 binom.test() 也 数 ， 
> binom.test(445,500,p=0.85) 
Exact binomial test 
data: 445 and 500 
number of successes = 445, number of trials = 500, p-value = 0.01207 
alternative hypothesis: true probability of success is not equal to 0.85 
95 percent confidence interval: 
0.8592342 0.9160509 
sample estimates: 
probability of success 
0.89 
PP 一 值 = 0.01207 < 0.05, 拒绝 原 假设 ， 认 为 种 衣 剂 对 种 子 发 芽 率 有 显著 效果 ， 
从 区 间 佑 计 值 来 看 ， 种 衣 剂 可 以 提高 种 子 的 发 芽 率 . 
我 们 可 作 单 侧 检 验 来 证 实 这 一 结论 ， 下 面 举 一 个 单 侧 检 验 的 例子 . 
例 5.7 据 以 往 经 验 ， 新 生 儿 染色 体 异常 率 一 般 为 1 多 某 医院 观察 了 当地 400 名 
新 生 儿 ， 只 有 1 例 染 色 体 异常 ， 问 该 地 区 新 生 儿 染色 体 异 常 是 否 低 于 一 般 水 平 ? 
解 : 根据 题 意 ， 所 检验 的 问题 为 ; 


Ho:p>0.01, Hi:p<0.01. 





调用 binom.test() 函数 ， 
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> binom.test(1, 400, p = 0.01, alternative = "1ess'") 
Exact binomial test 
data: 1 and 400 
number of successes = 1, number of trials = 400, p-value = 0.09048 
alternative hypothesis: true probability of success is less than 0.01 
95 percent confidence interval: 
0.00000000 0.01180430 
sample estimates: 
probability of success 
0.0025 
PP 一 值 = 0.09048 > 0.05 = a, 并 不 能 认为 该 地 区 新 生 儿 染色 体 异 党 率 低 于 一 般 
水 平 ， 男 外 ， 从 区 间 倍 计 值 也 能 说 明 这 一 点 ， 区 间 估 计 的 上 界 为 0.0118 > 0.01. 
男 一 种 输入 方法 
> binom.test(c(1, 399), p = 0.01, alternative = "less'") 


具有 同样 的 结果 . 


5.3 ”若干 重要 的 非 参 数 检验 


在 统计 推断 问题 中 ， 辱 给 定 或 假定 了 总 体 分 布 的 具体 形式 (如 正 态 分 布 ), 只 
是 其 中 含有 若干 未 知 参 数 , 要 基于 来 自 总 体 分 布 对 参数 做 出 估计 或 者 进行 某 种 形 
式 的 假设 检验 ， 这 类 推断 方法 称 为 参数 方法 . 

但 在 许多 实际 问题 中 ， 人 们 往往 对 总 体 的 分 布 知之 其 少 , 很 难 对 总 体 的 分 布 
形式 作出 正确 的 假定 ,最 多 只 能 对 总 体 的 分 布 做 出 诸如 连续 型 分 布 、 关 于 茶点 对 
称 分 布 等 一 般 性 的 假定 . 这 种 不 假定 总 体 分 布 的 具体 形式 ， 尽量 从 数据 (或 样本 ) 
本 号 来 获得 所 需要 的 信息 的 统计 方法 称 为 非 参 数 方法 . 

对 于 非 参数 方法 的 检验 问题 称 为 非 参 数 检验 法 , 它 涉 及 的 范围 很 广 , 这 里 只 
能 介绍 几 种 与 R 软件 有 关 的 、 在 应 用 上 较为 重要 的 检验 法 . 











5.3.1 ”Pearson 拟 合 优 度 x? 检验 


前 面 几 方 介绍 的 假设 检验 问题 称 为 参数 检验 问题 , 即 事先 认为 样本 分 布 具有 
某 种 指定 的 形式 ,而 其 中 的 一 些 参数 未 知 ,检验 的 目标 是 关于 某 个 参数 落 在 特定 
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的 范围 内 的 假设 .这 里 要 介绍 的 是 另 一 类 假设 ， 其 目标 不 是 针对 具体 的 参数 ， 而 
是 针对 分 布 的 类 型 . 例如 , 通常 假定 总 体 分 布 具有 正 态 性 , 则 “总体 分 布 为 正 态 ” 
这 一 断言 本 身 在 一 定 场合 下 就 是 可 颖 的 ， 有 符 于 检验 
在 第 三 章 ， 我 们 通过 直方 图 、 QQ 图 和 经 验 分 布 图 大 概 描 述 观 测 数据 是 否 
服从 某 种 分 布 ， 这 里 介绍 如 何 用 统计 方法 检验 观测 数据 是 否 服从 某 种 分 布 . 在 第 
三 章 介 绍 的 W 正 态 性 检验 和 Kolmogorov-Smirnov 检验 都 属于 拟 合 优 度 检验 . 
1. 理论 分 布 完全 已 知 的 情况 
假设 根据 茶 理论 、 学 说 其 至 假定 ， 某 随机 变量 应 当 有 分 布 , 现 对 X 进行 n 
次 观察 ， 得 到 一 个 样本 Xi, X2,.…, Xn, 要 据 以 检验 
Ho : X 具有 分 布 了 . 
这 里 虽然 没有 明确 指出 对 立 假设 ， 但 可 以 说 ， 对 立 假设 是 
Hi:X 不 具有 分 布 A 
本 问题 的 真实 含义 是 估量 实测 数据 与 该 理论 或 学 说 符合 得 怎么 样 , 而 不 在 于 当 认 
为 不 符合 时 ， X 可 能 备 择 的 分 布 如 何故 问题 中 不 明确 标 出 对 立 假设 ， 反 而 使 
人 感到 提 法 更 为 贴近 现实 . 
上 述 问 题 的 检验 方法 是 ， 将 数 轴 (一 00, ce) 分 成 m 个 区 间 : 





























EE Ms RD Ee 
记 这 些 区 间 的 理论 概率 分 别 为 

D1, D2 ** ,Pm, pi= P{X €1)},1i=1,2,..,m. 
记 m 为 各 ,Xs,…,X 中 落 在 区 间 内 的 个 数 ， 则 在 原 假设 成 立 下 ， ni 的 其 
望 值 为 wp ni 与 np; 的 差距 (i = 1,2,…,m) 可 视 为 理论 与 观察 之 问 偏离 的 衡 
量 ， 将 它 结 合 起 来 形成 一 个 综合 指标 ， 》 ”cni - np 其 中 c > 0 为 适当 的 
常数 ， 通 常 取 二 1/nps, 因此 得 到 统计 量 


Re < = (5.16) 

站 TDi 
称 K 为 Pearson x? 统 计量 . Pearson 证 明了 , 在原 假设 成 立 的 条 件 下 , 当 n 一 co 
时 ， 五 依 分 布 收敛 于 自由 度 为 m 一 1 的 x? 分布， 在 这 个 基础 上 ，5 引 进 一 个 大 
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样本 检验 ， 给 定 显著 性 水 平 a, 当 
K>x (m1) (5.17) 


则 拒绝 原 假设 .这 就 是 Neyman-Pearson 拟 合 优 度 Xx? 检验 . 

这 个 问题 还 可 以 讨论 得 更 细 一 些 , 按 式 (5.17), 只 要 > 从 (mm 一 1), 就 否定 
原 假设 ,但 是 一 个 远 远 大 于 Xa(m 一 1) 的 天 与 一 个 只 略 大 于 xa(m 一 1) 的 天 ， 
意义 有 所 不 同 ， 前 者 否定 的 理由 更 强 一 些 ， 为 反映 这 一 点 ， 在 计算 出 KK 值 后 ， 
可 计算 出 一 值 ， 








P- 值 = Pf{x (m1)>K}. (5.18) 


可 将 P 一 值 称 为 所 得 数据 与 原 假设 的 似 合 优 度 . P 了 一 值 越 大 ， 文 持原 假设 的 证 
据 就 越 强 . 给 定 一 个 显著 性 水 平 a, 当 P- 值 < % 就 拒绝 原 假设 . 

例 5.8 某 消费 者 协会 为 了 确定 市 场 上 消费 者 对 5 种 品牌 啤酒 的 喜好 情况 ， 随 机 
抽取 了 1000 名 啤酒 爱好 者 作为 样本 进行 如 下 试验 : 每 个 人 得 到 5 种 品牌 的 啤酒 
各 一 瓶 ， 但 未 标明 牌子 . 这 5 种 啤酒 按 分 别 写 着 4、BB、C、D、 思 学 本 的 
5 张 纸 片 随机 的 顺序 送 给 每 一 个 人 . 表 5.1 是 根据 样本 资料 整理 得 到 的 各 种 品牌 
啤酒 爱好 者 的 频数 分 布 ， 试 根据 这 些 数据 判断 消费 者 对 这 5 种 品牌 啤酒 的 爱好 
有 无 明显 差异 ? 





表 5.1: 5 种 品牌 啤酒 爱好 者 的 频数 
最 喜欢 的 牌子 | A B C D E 


人 数 六 210 312 170 85 223 


解 : 如 果 消 费 者 对 5 种 品牌 啤酒 喜好 无 显著 差异 ， 那 么 , 就 可 以 认为 喜好 这 
5 种 品牌 啤酒 的 人 呈 均 匀 分 布 ， 即 5 种 品牌 啤酒 爱好 者 人 数 各 占 20%. 据 此 假 


设 ， 





Ho : 喜好 5 种 啤酒 的 人 数 分 布 均匀 . 
按 式 (5.16) 和 式 (5.17) 编写 计算 公式 ， 用 R 软件 计算 . 
> X<-c(210，312，170，85，223) 
> n<-sum(X); m<-length(X) 
> p<-rep(1/m, m) 
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> K<-sum((X-n*p) “2/(n*p));K 

[1] 136.49 

> Pr<-1-pchisq(K, m-1);Pr 

[1] 0 
PP 一 值 为 0, 因此 ， 拒 绝 原 假设 ， 认 为 消费 者 对 5 种 品牌 啤酒 的 喜好 是 有 明显 差 
异 . 

我 们 可 以 将 上 述 过 程 编写 成 一 个 程序 进行 计算 ， 实 际 上 ， R 软件 已 完成 了 
此 项 工作 ， 所 提供 的 chisq.test() 函数 可 以 方便 地 和 完成 此 项 工作 . 我 们 只 需 输 
入 

> chisq.test(X) 
就 可 以 得 到 
Chi-squared test for given probabilities 
data: X 
X-squared = 136.49, df = 4, p-value < 2.2e-16 


chisq.test() 函数 的 使 用 格式 为 
chisq.test(x, y = NULL, correct = TRUE， 
p = rep(i/length(x), length(x)), rescale.p = FALSE， 
simulate.p.value = FALSE, B = 2000) 
其 中 x 是 由 观测 数据 构成 的 向 量 或 矩阵 ， y 是 数据 向 量 ( 当 x 为 矩阵 时 ，y 无 
效 ). correct 是 逻辑 变量 ， 表 明 是 否 用 于 连续 修正 ， TRUE( 缺 省 值 ) 表示 修正 ， 
FALSE 表示 不 修正 .Pp 是 原 假设 落 在 小 区 间 的 理论 概率 , 缺 省 值 表示 均匀 分 布 . 
rescale.p 是 逻辑 变量 ， 选 择 FALSE( 缺 省 值 ) 时 ， 要 求 输入 的 p 满足 OP: =1; 
选择 TRUE 时 ， 并 不 要 求 这 一 点 ， 程 序 将 重新 计算 p 值 . simulate.p.value 是 
逻辑 变量 ( 缺 省 值 为 FALSE), 当 为 TRUE, 将 用 仿真 的 方法 计算 P- 值 ， 此 时 ， B 
表示 仿真 的 次 数 . 
例 5.9 用 Pearson 拟 合 优 度 X? 检验 方法 检验 例 3.6 中 学 生成 绩 是 否 服 从 正 态 分 
市 
解 : 我 们 分 几 步 进行 ， 然 后 将 这 些 步 又 编写 成 R 程序 进行 计算 . 
第 一 步 ， 先 输入 数据 ， 这 里 用 scan() 函数 . 
第 二 步 , 对 31 名 学 生成 绩 进行 分 组 , 计算 各 组 的 频数 , 其 中 41 = {X < 70}， 
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42={70<X<80)4s ={80<X<90))44={90<X<100}. 这 里 调用 
cut() 函数 和 table() 函数 进行 分 组 和 记 数 . 
第 三 步 : 计算 原 假设 ( 正 态 分 布 ) 在 各 小 区 间 的 理论 概率 值 ， 先 计算 学 生成 
绩 的 均值 (mean) 、 标 准 差 (sd), 再 用 pnorm() 计算 理论 概率 . 
第 四 步 : 作 Pearson x? 检验 . 调用 chisq.test() 函数 . 
下 面 写 出 相应 的 R 程序 (程序 名 : ”exam0509.R) 
#### 第 一 步 ， 输 入 数据 
X<-scan() 
25 45 50 54 55 61 64 68 72 75 75 


78 79 81 83 84 84 84 85 86 86 86 
87 89 89 89 90 91 91 92 100 














#### 第 二 步 ， 分 组 和 记 数 
A<-table(cut (X, br=c(0,69,79,89,100))) 
#### 第 三 步 ， 构 造 理论 分 布 
p<-pnorm(c(70,80,90,100), mean(X), sd(X)) 
p<-c(p[1], p[2]-p[1], p[3]-p[2] ,1-p[L3]) 
#### 第 四 步 ， 作 检验 
chisq.test (A,p=p) 
计算 结果 如 下 : 
Chi-squared test for given probabilities 
data: A 
X-squared = 8.334, df = 3, p-value = 0.03959 
PP 一 值 = 0.03959 < 0.05, 因此 认为 该 门 课程 的 成 绩 不 服从 正 态 分 布 . 
在 这 个 例子 中 用 到 了 两 个 函数 ， 一 个 是 cut () 函数 ， 另 一 个 是 table() 函 
数 ， 下 面 简单 介绍 这 两 个 函数 的 用 法 . 
cut () 函数 是 将 变量 的 区 域 分 成 符 干 个 区 间 ， 其 使 用 方法 是 : 
cut(x, breaks, labels = NULL ， 








include.lowest = FALSE, right = TRUE, dig.lab = 3, ...) 
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其 中 x 是 由 数据 构成 的 向 量 ， breaks( 简 写 为 br) 是 所 分 区 间 的 端点 构成 的 向 
量 . 
table() 函数 是 计算 因子 合并 后 的 个 数 ， 其 使 用 方法 是 : 


table(..., exclude = c(NA, NaN), dnn = list.names(...), 





deparse.level = 1) 
这 里 用 这 两 个 函数 计算 随机 变量 落 在 某 个 区 间 的 频数 . 
例 5.10 大 麦 的 杂交 后 代 关 于 芒 性 的 比例 应 是 无 芒 : 长 芒 : 短 芒 二 9:3:4. 实 
际 观测 值 为 335 : 125 : 160. 试 检验 观测 值 是 否 符合 理论 假设 ? 
解 : 根据 题 意 ， 


9 3 4 
Ho: m=16 ?7 6 B716 


调用 chisq.test() 也 数 
> chisq.test(c(335, 125, 160), p=c(9,3,4)/16) 

Chi-squared test for given probabilities 
data: c(335, 125, 160) 
X-squared = 1.362, df = 2, p-value = 0.5061 
PP 一 值 = 0.5061 > 0.05, 接受 原 假设 ， 即 大 麦 芒 性 的 分 离 符 合 9 : 3 : 4 的 比例 . 
例 5.11 为 研究 电话 总 机 在 某 段 时 间 内 接 到 的 呼叫 次 数 是 否 服从 Poisson 分 布 ， 
现 收集 了 42 个 数据 ， 如 表 5.2 所 示 ， 通过 对 数据 的 分 析 ， 问 能 否 确认 在 某 段 时 
间 内 接 到 的 呼叫 次 数 服 从 Poisson 分 布 (a = 0.1)? 


表 5.2: 电话 总 机 在 某 段 时 间 内 接 到 的 呼叫 次 数 的 频数 
接 到 呼唤 次 数 0 1 2 3 4 5 6 
出 现 的 频数 7 10 12 8 3 2 0 


解 : 编写 相应 的 计算 程序 (程序 名 ;exam0511.R) 
#### 输入 数据 
X<-0:6; Y<-c(7, 10, 12, 8, 3, 2,，0) 

#### 计算 理论 分 布 ， 其 中 mean(rep(X,Y)) 为 样本 均值 














5.3 者 干 重要 的 非 参数 检验 267 


q<-ppois(X, mean(rep(X,Y))); n<-length(Y) 
p[1i]<-q[1]; p[n]<-1-q[n-1] 
for (i in 2:(n-1)) 

p[i]<-q[i]-q[i-1] 


#### 作 检 验 
chisgq.test(Y, p=p) 
但 计算 结果 会 出 现 敬告 . 
Chi-squared test for given probabilities 
data: 了 


X-squared = 1.5057, df = 6, p-value = 0.9591 
Warning message: 
Chi-squared 近似 算法 有 可 能 不 准 in: chisq.test(Y, p = p) 

为 什么 会 出 现 这 种 情况 呢 ? 这 是 因为 Pearson Xx? 检验 要 求 在 分 组 后 ， 每 组 
中 的 频数 至 少 要 大 于 等 于 5, 而 后 三 组 中 出 现 的 频数 分 别 为 3, 2, 0, 均 小 于 5. 解 
决 问题 的 方法 是 将 后 三 组 合成 一 组 ， 此 时 的 频数 为 5, 满足 要 求 . 下 面 给 出 相应 
的 R 程序 . 

#### 重新 分 组 








Z<-c(7, 10, 12, 8, 5) 

#### 重新 计算 理论 分 布 

n<-length(Z); p<-p[li:n-1]; pln]<-1-q[n-1] 
#### 作 检 验 

chisg.test(Z, p=p) 





计算 得 到 
Chi-squared test for given probabilities 
data: Z 
X-squared = 0.5389, df = 4, p-value = 0.9696 
P- 值 > 0.1, 因此 ， 能 确认 在 茶 段 时 间 内 接 到 的 呼叫 次 数 服从 Poisson 分 

布 . 

从 例 5.11 的 结果 可 以 看 出 ， 在 习题 4.9 中 ， 将 在 某 段 时 间 内 接 到 的 呼叫 次 
认为 数 服从 Poisson 分 布 是 合理 的 . 
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2. 理论 分 布依 赖 于 若干 个 未 知 参数 的 情况 

如 果 分 布 族 玉 依赖 于 7 个 参数 01,0。,.…,9,, 要 根据 样本 Xi 六 2,…, Xn 去 
检验 假设 

HH:X 的 分 布 属于 {F(z, 01, 02， ey 0,)}. 

解决 这 个 问题 的 步骤 是 ， 先 通过 样本 作出 (01, 9,… ,90.) 的 极 大 似 然 估 计 

(01, 02,…, 扩 ) 再 检验 假设 
H:xX 有 分 布 F(x,0,02,...,0,). 

然后 再 按理 论 分 布 已 知 的 情况 进行 处 理 ， 所 不 同 的 是 由 式 (5.16) 得 到 的 统计 旱 
KK 服从 自由 度 为 m 一 1 一 7 的 x 分布 ， 即 自由 度 减 少 了 到 . 


5.3.2 ”Kolmogorov-Smirnov 检验 


在 第 三 章 描述 性 统计 中 ， 介 绍 了 Kolmogorov-Smirnov 检验 ， 该 检验 实际 上 
是 属于 拟 合 优 度 检验 . 这 里 再 进出 一 步 介 绍 它 的 使 用 方法 . 

Kolmogorov-Smirnov 检验 有 单 样本 检验 和 双 样 本 检验 ， 在 第 三 章 中 我 们 介 
绍 的 就 是 单 样本 检验 的 使 用 方法 . 

1. 单 样本 检验 

通过 第 三 章 的 介绍 ， 我 们 知道 Kolmogorov-Smirnov 检验 是 通过 经 验 分 布 与 
假设 分 布 的 上 确 界 来 构造 统计 量 的 ， 因此 理论 上 可 以 检验 任何 分 布 , 即 原 假设 为 

Ho : X 具有 分 布 F. 

R 软件 提供 了 Kolmogorov-Smirnov 检验 的 函数 ks.test(), 我 们 用 例子 进 
一 步 说 明 它 的 使 用 方法 . 
例 5.12 对 一 台 设备 进行 寿命 检验 ， 纪 录 10 次 无 故障 工作 时 间 ， 并 按 从 小 到 大 
的 次 序 排列 如 下 (单位 ， 小 时 ) 

420 500 920 1380 1510 1650 1760 2100 2300 2350 
试用 Kolmogorov-Smirnov 检验 方法 检验 此 设备 无 故障 工作 时 间 的 分 布 是 否 服从 
入 一 1/1500 的 指数 分 布 ? 

解 : 输入 数据 ， 调 用 ks .test() 函数 . 
> X<-c(420，500，920，1380，1510，1650，1760，2100，2300，2350) 
> ks.test(X, "pexp", 1/1500) 
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One-sample Kolmogorov-Smirnov test 
data: X 


D = 0.3015, p-value = 0.3234 

alternative hypothesis: two.sided 

其 PP 一 值 大 于 0.05, 无 法 拒绝 原 假设 ,因此 认为 此 设备 无 故障 工作 时 间 的 分 布 服 
从 入 = 1/1500 的 指数 分 布 . 


2. 双 样 本 检验 


假设 Xi Xs, .…, Xn, 为 来 自分 布 为 F(x) 总 体 的 样本 ， 且 F(x) 未 知 ， 六， 
22, …， Ys 为 来 自分 布 为 G(X) 总 体 的 样本 ， 且 G(x) 未 知 ， 假定 f(z) 和 G(x) 
均 为 连续 分 布 函 数 ， 检 验 这 两 分 布 是 否 相 同 ， 即 原 假设 为 
Ho: F(x)= G(x). 
例 5.13 假定 从 分 布 函数 为 未 知 的 F(T) 和 G(T) 的 总 体 中 分 别 抽出 25 个 和 20 
个 观察 值 的 随机 样本 ， 其 数据 由 表 5.3 所 示 . 现 检 验 下 (Z) 和 G(Z) 是 否 相同 . 





表 5.3: 抽 自 不 同 分 布 的 数据 
0.61 0.29 0.06 0.59 -173 -0.74 0.51 -0.56 0.39 


1.64 0.05 —0.06 0.64 —0.82 0.37 1.77 1.09 ”一 1.28 
2.36 1.31 1.05 ”一 0.32 一 0.40 1.06 一 2.47 

2.20 1.66 1.38 0.20 0.36 0.00 0.96 1.56 0.44 
1.50 一 0.30 0.66 2.31 3.29 ”一 0.27 一 0.37 0.38 0.70 
0.52 ”一 0.71 





解 : 编写 相应 的 计算 程序 (程序 名 exam0513 .B). 
#### 输入 数据 
X<-scan() 
0.61 0.29 0.06 0.59 -1.73 -0.74 .51 -0.56 0.39 
1.64 0.05 -0.06 0.64 -0.82 0.37 1.77 1.09 -1.28 
2.36 1.31 1.05 -0.32 -0.40 1.06 -2.47 














OO 
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Y<-scan() 
2.20 1.66 1.38 0.20 0.36 0.00 0.96 1.56 0.44 
1.50 -0.30 0.66 2.31 3.29 -0.27 -0.37 0.38 0.70 
0.52 -0.71 


#### 作 KK-S 检验 
ks.test(X, Y) 


Two-sample Kolmogorov-Smirnov test 

data: X and Y 
D = 0.23, p-value = 0.5286 
alternative hypothesis: two.sided 
PP 一 值 大 于 0.05, 故 接 受 原 假设 Ho, 即 认为 F(z) 和 G(x) 两 个 分 布 函数 相同 . 

Kolmogorov-Smirnov 检验 与 Pearson x? 检验 相 比 ， Kolmogorov 检验 不 须 
将 样本 分 组 ， 少 了 一 个 任意 性 ， 这 是 其 优点 . 其 缺点 是 只 有 用 在 理论 分 布 为 一 维 
连续 分 布 且 分 布 完全 已 知 的 情形 ， 适 用 面 比 Pearson 检验 小 .研究 也 显示 : 在 
Kolmogorov 检验 可 用 的 场合 下 ， 其 功效 一 般 来 说 略 优 于 Pearson 检验 . 





5.3.3 ” 列 联 表 数 据 的 独立 性 检验 


设 两 个 随 要 变量 义 ， Y 均 为 离散 型 的 ， X 取 值 于 {Q1, a2， QT， Y 的 取 
值 于 {01, bo2， 3 by}. 设 (Xi1, 六)， (Xs, Y), 生起 区 (Xi; Y,) 为 简单 样本 ， 记 Tij 为 
(Xi1, Y), (Xs, 2 )， ras 本 (Xn， Y,) 中 等 于 (ai b;) 的 个 数 ， 要 据 此 检验 假设 
万 0 :和 与 了 独立 . 
1. Pearson x? 检验 
在 求解 问题 时 , 常 把 数据 列 为 表 5.4 的 形式 , 称 为 列 联 表 (contingency table). 


记 


P{Xi = a, Y; = bj;}, 


J I 
P(X = 0 = 7 py p.; = 二 人》 py 


j=1 i=1 


Pij 


Pi. 
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表 5.4: 列 联 表 
Q1 71. 
Q2 NL2. 
QT NIT. 
2 
则 假设 五 可 表示 为 


I J 
i=1 a 


参数 Di., (i 二 1, 2， 2 和 了 )， 刀 . 放 (i 二 1, 2, ” J) 的 拟 合 优 度 检验 问题 . 因此 ， 需要 
先 用 极 大 似 然 估计 来 估计 pi., p.;, 得 到 


J I 
其 中 ni. = > Tij, Nj 一 > ， Vij: 这 样 就 可 以 计算 Pearson x 统计 量 
j=1 i=1 


2 
> 
Nn; 


有 让 
Nn 

#0 

二 1 j=1 了 


玉 二 。 [ns —n (人 
0 
然后 再 计算 自由 度 。 (X,Y) 的 什 域 一 共 划 分 成 7 个 集合 ， 但 估计 了 -一些 


2j0 = 1,2,…,J) 中 未 知 参 数 只 有 了 一 1 个， 故 共 有 了 十 了 一 2 个 未 知 参数 ， 而 
大 的 自由 度 就 为 


2 


sl 
这 样 在 计算 出 KK 值 后 ， 其 拒绝 域 为 


Kel = = 1 
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或 计算 其 P-_ 什 
P- 值 =P{C2(C-DU -DTD)> K}. 


当 了 = J = 2 时 ， 列 联 表 中 只 有 4 个 格子 ， 称 为 “四 格 表 ”, 这 时 式 (5.20) 简 
单 化 为 
pw 一 an) 


及 一 
11.722.72.172.2 


自由 度 为 1. 

chisq.test() 函数 也 可 以 作 独 立 性 检验 ， 只 需 将 列 联 表 数 据 写成 矩阵 形式 
即 可 . 
例 5.14 为 了 研究 吸烟 是 否 与 患 肺癌 有 关 ， 对 63 位 肺癌 患者 及 43 名 非 肺癌 串 
者 (对 照 组 ) 调查 了 其 中 的 吸烟 人 数 ， 得 到 2 x 2 列 联 表 ， 如 表 55.5 所 示 . 


表 5.5: 列 联 表 数 据 
患 肺癌 未 患 肺癌 合计 


吸烟 60 32 92 
不 吸烟 3 14 
合计 63 106 





解 : 输入 数据 ， 用 chisq.test() 作 检 验 . 
> x<-c(60, 3, 32,11) 
> dim(x)<-c(2,2) 
> chisq.test(x,correct = FALSE) 
Pearson’s Chi-squared test 
data: X 
X-squared = 9.6636, df = 1, p-value = 0.001880 
或 带 连续 校正 . 
> chisgq.test(x) 


下 


Pearson’s Chi-squared test with 
Yates’ continuity correction 
data: Xx 
X-squared = 7.9327, df = 1, p-value = 0.004855 
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无 论 是 哪 种 方法 ， 其 P 一 值 均 小 于 0.05, 因此 拒绝 原 假 设 ， 也 就 是 说 吸烟 与 
患 肺癌 有 关 . 
例 5.15 在 一 次 社会 调查 中 ,以 问卷 方式 调查 了 总 共 901 人 的 年 收入 及 对 工作 的 
满意 程度 ， 其 中 年 收入 4 分 为 小 于 6000 元、 6000 元 至 15000 元 、 15000 元 
至 25000 元 及 超过 25000 元 四 档 . 对 工作 的 满意 程度 BB 分 为 很 不 满意 、 较 不 满 
意 、 基 本 满意 和 很 满意 四 档 ， 调查 结果 用 4X4 列 联 表 表示 ， 如 表 5.6 所 示 . 


表 5.6: 工作 满意 程度 与 年 收入 列 联 表 
很 不 满意 ” 较 不 满意 基本 满意 很 ? 


< 6000 
6000 ~ 15000 
15000 ~ 25000 

> 25000 


合计 





解 : 输入 数据 ， 用 chisq.test() 作 检 验 . 
x<-scan() 
20 24 80 82 22 38 104 125 
13°28 .81 113 7 18 54 92 


dim(x)<-c(4,4) 
chisqg.test (x) 

Pearson’s Chi-squared test 
data: Xx 


X-squared = 11.9886, df = 9, p-value = 0.2140 
其 已 - 值 均 大 于 0.05, 接受 原 假 设 ， 即 工作 的 满意 程度 与 年 收入 无 关 . 
在 用 chisq.test() 函数 作 计 算 时 ， 要 注意 单元 的 期 望 频数 .如果 没有 空 单 
元 (所 有 单元 频数 都 不 为 零 ), 并 且 所 有 单元 的 期 望 频数 大 于 等 于 5, 那么 Pearson 
X“” 检验 是 合理 的 ， 否 则 计算 机 会 显示 警告 信息 . 
如 果 数 据 不 满足 x? 检验 的 条 件 时 ， 应 使 用 Fisher 精确 检验 . 
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2. Fisher 精确 的 独立 检验 
在 样本 较 小 时 (单元 的 期 望 频数 小 于 多, 需要 用 Fisher 精确 检验 来 作 独 立 性 


IT. 

Fisher 精确 检验 最 初 是 针对 2 x 2 这 种 特殊 的 列 联 表 提 出 的 ， 当 x 检验 的 
条 件 不 满足 时 ， 这 个 精确 检验 是 非常 有 用 的 . ”Fisher 检验 是 建立 在 超 几何 分 布 
的 基础 上 ， 对 于 单元 频数 小 的 表 来 说 ， 特 别 适合 . 

这 里 不 再 推导 相关 的 统计 量 ， 而 是 直接 绘 出 R 软件 关于 Fisher 精确 检验 的 
方法 . 
例 5.16 某 医师 为 研究 乙肝 免疫 球 蛋 和 白 预 防 胎儿 富 内 感染 HBV 的 效果 ,将 33 
例 BsAg 阳性 孕妇 随机 分 为 预防 注射 组 和 对 照 组 ， 结 果 由 表 5.7 所 示 . 问 两 组 
新 生 儿 的 HBV 总 体感 染 率 有 无 差别 ? 





表 5.7: 两 组 新 生 儿 HBYV 感染 率 的 比较 
组 别 阳性 ”阴性 
预防 注射 组 
对 照 组 


合计 





解 有 一 个 单元 频数 小 于 5, 应 该 作 Fisher 精确 概率 检验 . 
在 R 软件 中 ， 函 数 fisher.test() 作 精 确 概率 检验 .其 使 用 方法 是 
fisher.test(x, y = NULL, workspace = 200000, hybrid = FALSE， 
control = list(), or = 1, alternative = "two.sided", 
conf.int = TRUE, conf.level = 0.95) 
其 中 x 是 具有 二 维 列 联 表 形式 的 矩阵 或 是 由 因子 构成 的 对 象 ，y 是 由 因子 构成 的 
对 象 , 当 x 是 矩阵 时 , 此 值 无 效 ，workspace 的 输入 值 是 一 整数 , 其 整数 表示 用 于 
网 络 算法 工作 空间 的 大 小 ，hybrid 为 逻辑 变量 ，FALSE( 缺 省 值 ) 表示 精确 计算 概 
率 ，TRUE 表示 用 混合 算法 计算 概率 .，alternative 为 备 择 ， 有 "two.sided"( 缺 
省 值 ) 双边 ，"less" 单 边 小 于 ，"greater" 单 边 大 于 . conf .int 逻辑 变量 ， 
当 conf .int=TRUE( 缺 省 值 ), 给 出 区 间 佑 计 ， conf .1evel 为 告 信 水 平 ， 缺 省 值 
为 0.95. 其 余 参 数 见 在 线 说 明 . 
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对 于 2 x 2 列 联 表 ， 原 假设 “两 变量 无 关 ” 等 价 于 赔 率 比 (odds rate) 等 于 1. 

输入 数据 ， 并 计算 Fisher 检验 
> x<-c(4,5,18,6); dim(x)<-c(2,2) 
> fisher.test(X) 

Fisher’s Exact Test for Count Data 

data: X 
p-value = 0.1210 
alternative hypothesis: true odds ratio is not equal to 1 
95 percent confidence interval: 
0.03974151 1.76726409 
sample estimates: 
odds ratio 
0.2791061 

因为 P- 值 = 0.1210 > 0.05, 且 区 间 估 计 得 到 的 区 间 包 含有 1, 因此 说 明 两 
变量 是 独立 的 ， 即 认为 两 组 新 生 儿 的 HBV 总 体感 染 率 无 差别 . 

如 果 用 Pearson x? 检验 (chisq.test() 函数 ) 对 这 组 数据 作 检验 时 ， 你 会 
发 现 计 算 机 在 得 到 结果 的 同时 ， 给 出 警告 ， 认 为 其 计算 值 可 能 有 误 . 

用 Fisher 精确 检验 (fisher.test() 函数 ), 对 例 5.14 的 数据 作 检 验 ， 得 到 
> X<-c(60，3，32，11); dim(x)<-c(2,2) 
> fisher.test(X) 

Fisher’s Exact Test for Count Data 
data: X 
p-value = 0.002820 
alternative hypothesis: true odds ratio is not equal to 1 
95 percent confidence interval: 
1.626301 40.358904 

sample estimates: 
odds ratio 


6.74691 


其 呈 - 值 小 于 0.05, 因此 拒绝 原 假设 ， 即 认为 吸烟 与 患 肺 净 有 关 ， 由 于 赔 率 比 大 
于 1, 因此 还 是 正 相 关 ， 也 就 是 说 ， 吸 烟 越 多 ， 患 肺 瘤 的 可 能 性 也 就 越 大 . 
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3. McNemar 检验 


McNemar 检验 虽然 不 是 独立 性 检验 ， 但 它 是 关于 列 联 表 数 据 的 检验 ， 所 以 
放 在 这 里 来 处 理 . 

McNemar 检验 是 在 相同 个 体 上 的 两 次 检验 ， 检 验 两 无 数据 的 两 个 相关 分 布 
的 频数 比 变 化 的 显著 性 . 

如 果 作 为 样本 的 一 批 个 体 分别 在 某 一 时 间 间 隔 或 不 同 条 件 下 作 两 次 研究 ， 比 
如 是 关于 二 元 特征 的 强度 ,那么 确定 研究 的 不 再 是 独立 的 样本 ， 而 是 相关 样本 . 
每 个 试验 单元 可 提供 一 对 数据 . 从 第 一 次 到 第 二 次 研究 中 ， 两 种 选择 的 频数 比率 
有 或 多 或 少 的 改变 McNemar 检验 是 检验 这 个 变化 强度 ， 它 能 较 精 确 地 得 知 在 
第 一 次 和 第 二 次 研究 之 间 有 多 少 个 体 从 这 一 类 变 成 另 一 类 . 我 们 可 以 得 出 具有 第 
一 次 研究 划分 出 的 两 类 和 第 二 次 研究 划分 出 的 两 类 的 列 联 表 ， 如 图 5.8 所 示 . 





表 5.8: 不 同方 法 的 研究 结果 

研究 I 合 i 
(0h 
C 


b Q 十 了 
da c+d 
本 ET 


问题 的 原 假设 为 
Ho : 在 这 个 总 体 中 两 次 研究 的 频数 没有 区 别 . 

原 假设 表示 频数 5b 和 < 只 表示 在 这 个 样本 中 的 随机 变 差 . 

在 及 软件 中 ， mcnemar.test() 函数 给 出 了 McNemar 检验 ， 其 具体 的 使 用 
方法 是 

mcnemar.test(x, y = NULL, correct = TRUE) 
其 中 x 是 具有 二 维 列 联 表 形式 的 矩阵 或 是 由 因子 构成 的 对 象 . y 是 由 因子 构成 
的 对 象 ， 当 x 是 矩阵 时 ， 此 值 无 效 . correct 是 逻辑 变量 ， TRUE ( 缺 省 值 ) 表示 
在 计算 检验 统计 量 时 用 连续 修正 ， FALSE 是 不 用 修正 . 
例 5.17 某 胸 科 医院 同时 用 甲 、 乙 两 种 方法 测定 202 份 痰 标本 中 的 抗 酸 杆 菌 ， 结 
果 如 表 5.9 所 示 ， 问 甲 、 乙 两 法 的 检 出 率 有 无 差别 ? 
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表 5.9: 甲 、 乙 两 法 检测 痰 标本 中 的 抗 酸 杆 菌 结果 


下 法 合计 
74 
到 128 

合计 202 





解 : 输入 数据 ， 调 用 mcnemar .test() 也 数 作 McNemar 检验 . 
> X<-c(49, 21, 25, 107); dim(X)<-c(2,2) 
> mcnemar.test(X,correct=FALSE) 
McNemar’s Chi-squared test 
data: XX 
McNemar’s chi-squared = 0.3478, df = 1, p-value = 0.5553 


其 统计 量 为 0.3478, P 一 值 为 0.5553 > 0.05, 因此 ， 不 能 认定 两 种 检测 方法 





5.3.4 ”符号 检验 


1. 检验 一 个 样本 是 否 来 自 某 个 总 体 


假设 某 个 总 体 的 中 位 数 为 Mo, 如 果 样 本 中 位 数 M = Wo, 我 们 就 接受 样本 
来 自 某 个 总 体 的 假设 . 其 具体 的 检验 方法 是 这 样 的 . 首先 从 每 个 样本 观察 值 中 减 
去 总 体 中 位 数 Wo, 得 出 的 正 、 负 差额 用 正 (二 +) 、 负 (一 ) 号 加 以 表示 . 如 果 总 体 
中 位 数 等 于 样本 中 位 数 ， 即 M = Wo, 那么， 样本 观察 值 在 中 位 数 上 、 下 的 数目 
应 各 占 一 半 ， 因 现时 出 现 正 号 或 负 号 的 概率 应 各 占 1/2. 设 样本 容量 为 n, 就 可 以 
用 二 项 分 布 B(n,1/2) 来 计算 出 现 负 号 (或 正 号 ) 个 数 的 概率 ,从 而 根据 一 定 的 显 
著 性 水 平 a, 作出 是 否 接 受 原 假设 Ho : M = Mo 的 判定 . 
例 5.18 联合 国人 员 在 世界 上 66 个 大 城市 的 生活 花费 指数 (以 纽约 市 1996 年 
12 月 为 100) 按 自 小 至 大 的 次 序 排列 如 下 (这 里 北京 的 指数 为 99) : 
66 75 78 80 81 81 82 83 83 83 83 
84 85 85 86 86 86 86 87 87 88 88 
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88 88 88 89 89 89 89 90 90 91 91 
91 91 92 93 93 96 96 96 97 99 100 
101 102 103 103 104 104 104 105 106 109 109 
110 110 110 111 113 115 116 117 118 155 192 
假设 这 个 样本 是 从 世界 许多 大 城市 中 随机 抽样 得 到 的 . 试用 符号 检验 分 析 ， 北 京 
是 在 中 位 数 之 上 ， 还 是 在 中 位 数 之 下 . 
解 : 样本 的 中 位 数 (M) 作为 城市 生活 水 平 的 中 间 值 ， 因 此 需要 检验 : 


Ho:M > 99, 万 :AM < 99. 


输入 数据 ， 作 二 项 检验 . 
> X<-scan() 
1: 66 75 78 80 81 81 82 83 83 83 83 
12: 84 85 85 86 86 86 86 87 87 88 88 
23: 88 88 88 89 89 89 89 90 90 91 91 
34: 91 91 92 93 93 96 96 96 97 99 100 
45: 101 102 103 103 104 104 104 105 106 109 109 
56: 110 110 110 111 113 115 116 117 118 155 192 
67 : 
Read 66 items 
> binom.test(sum(X>99), length(X), al="1") 
Exact binomial test 
data: sum(X > 99) and length(X) 
number of successes = 23, number of trials = 66, p-value = 0.009329 
alternative hypothesis: true probability of success is less than 0.5 
95 percent confidence interval: 
0.0000000 0.4563087 
sample estimates: 
probability of success 


0.3484848 


在 程序 中 ， sum(X>99) 表示 样本 中 大 于 99 的 个 数 . al 是 alternative 的 缩 
写 ，"1" 是 "less" 的 缩写 . 计算 出 的 PP 一 值 小 于 0.05, 拒绝 原 假设 , 也 就 是 说 ， 
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北京 的 生活 水 平 高 于 世界 中 间 水 平 . 注意 ， 单 侧 区 间 佑 计 的 上 界 为 0.4563, 低 于 
0.5, 所 得 的 结论 还 是 拒绝 原 假设 . 


2. 用 成 对 样本 来 检验 两 个 总 体 间 是 否 存 在 显著 差异 


符号 检验 法 也 可 用 于 以 成 对 随机 样本 观察 值 来 检验 两 个 总 体 之 间 是 否 存 在 
显著 差异 . 如 果 两 个 总 体 无 显 者 差异 ， 则 两 个 成 对 随机 样本 观察 值 正 、 负 差额 的 
个 数 应 大 体 相 等 . 假定 xi; 一 y; > 0 用 正 号 表示 ， xi 一 yi; < 0 用 负 号 表示 ， 则 如 
果 两 个 总 体 无 显 显 著 差 异 ， 那 么 出 现 正 号 和 负 号 的 概率 各 占 1/2. 和 上 面 检验 样 
本 是 否 来 自 某 个 总 体 一 样 ， 可 用 二 项 分 布 B(n,1/2), 根据 一 定 的 显著 性 水 平和 正 
号 (或 负 号 ) 的 个 数 ， 作 出 接受 或 拒绝 两 个 总 体 无 显著 差异 的 判断 . 

例 5.19 用 两 种 不 同 的 饲料 养 猪 ， 其 增 重 情况 如 表 5.10 所 示 . 试 分 析 两 种 饲料 














表 5.10: 不 同 饲料 养 猪 的 增 重 情 次 
1 





对 编号 
饲料 X125 30 28 23 27 35 30 28 32 29 30 30 31 16 
饲料 Y |19 32 21 19 25 31 31 26 30 25 28 31 25 25 


养 猎 有 无 显著 差异 . 

解 : 采用 成 对 符号 检验 ， 输 入 数据 ， 调 用 binom.test() 作 检 验 . 
> x<-scan() 
1: 25 30 28 23 27 35 30 28 32 29 30 30 31 16 
15: 
Read 14 items 
> y<-scan() 
1: 19 32 21 19 25 31 31 26 30 25 28 31 25 25 
15: 
Read 14 items 
> binom.test(sum(x<y), length(x)) 

Exact binomial test 

data: sum(x < y) and length(x) 


number of successes = 4, number of trials = 14, p-value = 0.1796 
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alternative hypothesis: true probability of success is not equal to 0.5 
95 percent confidence interval: 
0.08388932 0.58103526 
sample estimates: 
probability of success 
0.2857143 

sum(x < y) 表示 样本 X 小 于 样本 的 个 数 . 计算 出 的 已- 值 大 于 0.05, 无 法 
拒绝 原 假设 , 可 以 认为 两 种 饲料 养 猪 无 显著 差异 . 计算 出 的 区 间 估 计 包 含 0.5, 也 
就 是 说 ， 可 以 认为 <Y 和 XX 二 Y 的 概率 各 占 1/2, 得 到 的 结论 也 不 无 法 拒绝 
原 假设 ， 两 种 饲料 养 猪 无 显著 差异 . 

在 人 们 的 日 常生 活 中 , 常常 遇 到 很 难 用 数值 确切 表示 的 问题 ,而 符号 检验 法 
也 可 用 于 这 类 问题 的 研究 ， 例 如 我 们 要 了 解 消费 者 是 喜欢 咖啡 ， 还 是 喜欢 奶茶 就 
属于 这 一 类 的 问题 . 消费 者 很 难 用 5 表示 对 咖啡 的 爱好 ， 或 者 用 8 表示 对 奶茶 
的 爱好 ,一 般 只 能 表示 某 消费 者 对 咖啡 的 爱好 超过 奶茶 ， 或 者 对 奶 条 的 爱好 超过 
咖啡 ， 或 者 两 者 同样 爱好 . 因而 我 们 可 以 用 符号 检验 法 来 研究 这 一 类 的 现象 . 现 
举例 说 明 这 个 检验 方法 的 具体 应 用 . 
例 5.20 某 饮 料 店 为 了 解 顾客 对 饮料 的 爱好 情况 ， 进 一 步 改进 他 们 的 工作 ， 对 顾 
容 音 欢 扣 啡 还 是 喜欢 奶茶 ,或 者 两 者 同样 爱好 进行 了 调查 . 该 店 在 某 日 随机 地 机 
取 了 13 名 顾客 进行 了 调查 ， 顾 客 喜 欢 咖啡 超过 奶茶 用 正 号 表示 ， 喜 欢 奶 茶 超 过 
咖啡 用 负 有 号 表示 ， 两 者 同样 爱好 用 0 表示. 现 将 调查 的 结果 列 在 表 5.11 中 . 试 





表 5.11: 不 同 顾客 的 爱好 情况 


顾客 编号 |1 2 3 4 5 6 7 8 9 10 11 12 13 
喜欢 咖啡 | 1 1 1 1 0 1 1 1 1 1 
喜欢 奶茶 1 1 1 





分 析 顾 客 是 喜欢 咖啡 还 是 喜欢 奶茶 . 

解 : 根据 题 意 可 检验 如 下 假设 : 

Ho : 顾客 喜欢 咖啡 等 于 喜欢 奶茶 ;， ”于 : 顾客 喜欢 咖啡 超过 奶茶 ， 

以 上 资料 中 有 1 人 ( 即 6 号 顾客 ) 表示 对 咖啡 和 奶茶 有 同样 爱好 ， 用 0 表 
示 ， 因 而 在 样本 容量 中 不 加 计算 ， 所 以 实际 上 n = 12. 如 果 Ho 假设 为 真 ， 即 
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顾客 对 咖啡 和 奶茶 同样 爱好 ， 那 么 会 出 现 x 一 y < 0, 即 负 号 的 概率 为 1/2, 所 以 
出 现 负 号 的 个 数 服从 二 项 分 布 ， B(12,1/2). 负 号 个 数 愈 少 ， 说 明 顾 客 喜 欢 咖啡 
超过 奶茶 的 人 数 愈 多 ， 负 号 个 数 少 到 一 定 程度 就 要 推翻 Ho 假设 ， 而 接受 万 假 
设 ， 即 顾客 喜欢 咖啡 超过 喜欢 奶茶 ， 所 以 本 例 属于 单 边 备 择 假设 检验 . 

用 R 软件 进行 计算 ， 显著 性 水 平 取 a = 0.10， 
> binom.test(3,12,p=1/2, al="1l", conf.level = 0.90) 





Exact binomial test 
data: 3 and 12 
number of successes = 3, number of trials = 12, p-value = 0.073 
alternative hypothesis: true probability of success is less than 0.5 
90 percent confidence interval: 
0.0000000 0.4752663 
sample estimates: 
probability of success 
0.25 

P 一 值 = 0.073 < 0.10, 间 侧 区 间 佑 计 为 [0, 0.475], 因此 拒绝 原 假设 ， 认 为 喜欢 咖 
啡 的 人 超过 喜欢 奶 条 的 人 . 

如 有 果 显 著 性 水 平定 在 a = 0.05 时 ， 则 不 能 拒绝 原 假 设 ， 只 能 认为 喜欢 咖啡 
和 奶茶 的 人 一 样 多 . 

一 般 来 说 ， 符 号 检验 比 参数 统计 t 检验 法 的 效能 低 ， 特 别 是 正 、 负 符号 所 代 
表 的 差额 的 绝对 值 比较 大 时 ， 表 现 的 更 为 明显 . 

在 符号 检验 法 中 ， 只 计算 符号 的 个 数 ， 而 不 考虑 每 个 符号 差 中 所 包含 的 绝对 
值 的 大 小 . 为 了 弥补 这 一 缺点 ， 所 以 在 非 参 数 统 计 中 还 要 使 用 其 他 的 检验 方法 . 





5.3.5 ” 秩 统计 量 

前 面 介绍 了 符号 检验 ， 下 面 介绍 另 一 中 检验 方法 一 秩 检 验 ， 在 介绍 秩 检验 
之 前 ， 先 介绍 与 秩 检 验 有 关 的 概念 一 秩 统 计量 (rank statistics). 

秩 统计 量 是 在 非 参数 检验 中 有 广泛 应 用 的 统计 量 , 它 的 一 个 重要 的 特性 是 分 
布 无 关 性 (distribution-freeness). 
定义 5.2 设 XiX2………，Xn 为 一 组 样本 (不 必 取 自 同一 总 体 / 将 XXX2，Xn 
从 小 到 大 排 成 一 列 ， 用 RR 记 为 Xi 在 上 述 排列 中 的 位 置 号 ，1i = 1,2,…,n. 称 


282 第 五 章 假设 检验 


Ri, Ro,…, Rn 为 样本 XXXa…,Xn 产生 的 秩 统 计量 (rank statistics). 
例 5.21 有 下 列 一 组 样本 


Xl V2 VL3 Xa4 75 


1.2 0.8 —3.1 2.0 1.2 


解 : 由 此 产生 的 秩 统计 量 及 为 
Ri Rh» Rs Ra Rs 
3 2 1 5 4 


注意 ， 在 上 述 数 据 中 zi = zs, 这 时 就 按 自 然 顺 序 将 x1 排 在 zs 前 面 . 
在 R 软件 中 ， 通 数 rank() 可 以 计算 秩 统计 量 . 如 上 面 的 例子 ， 
> X<-c(1.2，0.8，-3.1，2.0，1.2) 
> rank(x) 
[1] 3.5 2.0 1.0 5.0 3.5 
这 里 并 不 象 人 为 排序 那样 ， 第 一 次 出 现 的 排 在 前 面 ， 而 是 同等 处 理 ， 其 顺序 均 为 
3.5. 这 种 情况 在 计算 统计 量 时 ， 有 时 程序 会 给 出 警告 . 如 果 希 望 得 到 人 为 规定 的 
排列 次 序 ， 将 第 二 次 出 现 的 值 (zs5) 增加 一 个 很 小 的 值 . 如 
> x<-c(1.2, 0.8, -3.1, 2.0, 1.2+1e-5) 
> rank(x) 
[1] 3 2154 
这 与 人 工 计算 的 结果 相同 . 
显然 , 若 样 本 XX1, XX2,.…, X 是 取 自 连续 分 布 总 体 的 独立 同 分 布 样本 , 则 统计 
量 Ri, R2,…, RR 的 分 布 是 对 称 等 概率 的 , 即 对 1,2,…,n 的 任 一 排列 ,i2,……, in 
有 1 
P{Ri = ,R= i, ,Rn = in} = EE (5.21) 


这 时 ， 及, R2,…, Rn 的 分 布 与 总 体 分 布 无 关 . 
5.3.6 ” 秩 相关 检验 


秩 相关 检验 是 秩 检 验 的 一 个 重要 应 用 . 在 第 三 章 , 我 们 介绍 了 Pearson 相关 
检验 ， 它 实际 应 用 在 正 态 分 布 总 体 的 数据 ,这 里 介绍 的 秩 相 关 检 验 并 不 要 求 所 检 
验 的 数据 来 自 正 态 分 布 的 总 体 . 
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1. Spearman 秩 相关 检验 

设 (Xi 站), (X27),……, (Xn,Y) 为 取 自 某 个 二 元 总 体 的 独立 样本 ， 要 检验 
变量 X 与 变量 Y 是 否 相 关 . 通常 以 “X 与 Y 相互 独立 (不 相关 )” 为 原 假设 ， 
“X 与 》 相关 ”为 备 择 假设 . 

设 7a 7r 为 由 XX1, 关 2,…, Xn 产生 的 秩 统 计量 ， Ri, Ro,……, RR 为 由 
六 ,3,…… ,Yn 产生 的 秩 统 计量 ， 则 有 

















之 n+1l = | 





定义 5.3 称 








i 二 1 


1 必 nily? 
| 人 5 ) 





/人 二 
12 
为 Spearmamn ( 斯 皮尔 曼 ) 秩 相 关系 数 . 

当 X 与 了 相互 独立 时 ， (rra Tn) 与 (Ri, R2,…, RR,) 相互 独立 时 ， 
已 (rs) =0. 当头 与 Y 正 相关 时 ，7s 倾向 于 取 正 值 ， 当 X 与 了 负 相 关 时 ， 7s 
倾 问 于 取 负 值 . 这 样 就 可 以 得 用 rs 的 分 布 来 检验 X 与 了 是 否 独立 . 

可 以 证 明 : 当 n 较 大 时 ， Vn 一 17s 的 近似 分 布 为 N(0,1). 由 此 可 以 构造 
拒绝 域 和 计算 相应 的 了 一 值 ， 当 PP 一 值 小 于 某 一 显著 性 水 平 a 时 ， 则 拒绝 原 假 
设 . 我 们 可 以 根据 问题 构造 单 边 检 验 或 双边 检验 . 

R 软件 中 的 检验 函数 cor.test() 可 以 进行 Spearman 秩 相关 检验 ， 其 使 用 
方法 为 


cor.test(x, y, 





alternative = c('"two.sided", "less", "greater'"), 
method = "spearman", conf.level = 0.95, ...) 
例 5.22 一 项 有 六 个 人 参加 表演 的 竞赛 , 有 两 人 进行 评定 , 评定 结果 用 表 5.12 所 
示 ， 试用 Spearman 秩 相关 检验 方法 检验 这 两 个 评定 员 对 等 级 评定 有 无 相关 关 
解 : 输入 数据 ， 作 检验 
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表 5.12: 两 位 评判 者 的 评定 成 绩 





参加 者 编号 1 2 3 4 5 6 
四 的 打分 (XX) 1 2 3 4 5 6 
乙 的 打分 (Y) 6 5 4 3 2 1 


> x<-c(1,2,3,4,5,6); y<-c(6,5,4,3,2,1) 
> cor.test(x, y, method = "spearman'") 
Spearman’s rank correlation rho 
data: x andy 
5S = 70, p-value = 0.002778 
alternative hypothesis: true rho is not equal to 0 
sample estimates: 
rho 
-1 
由 于 计算 出 的 一 值 小 于 0.05, 因此 拒绝 原 假设 ， 认 为 变量 X 与》 相关 . 


事实 上 ， 由 于 计算 出 的 7 = 一 1, 表示 这 两 个 量 是 完全 人 负 相 关 ， 即 两 人 的 结论 有 
关系 ， 但 完全 相反 . 





2. Kendall 相关 检验 
这 里 从 男 一 个 观点 来 看 相关 问题 ,同样 考虑 原 假 设 Ho : 变量 X 与 Y 不 相 
关 ， 和 三 个 备 择 假设 
Hi : 正 或 负 相 关 (或者)” 正 相关 (或者)” 负 相关 


引进 协同 的 概念 ， 如 果 乘 积 (X; 一 Xi)(Y 一 癌 ) > 0, 则 称 对 子 (Xi, 六 ) 及 
(Xj, 六 ) 是 协同 的 (concordant) 或 者 说 ， 它 们 有 同样 的 倾向 . 反之， 如 果 乘 积 
(Xj 一 XX;)(Y; 一 站) < 0, 则 称 该 对 子 是 不 协同 的 (disconcordant) . 令 


1， 如 果 (Xj; 一 Xi)(Y; 一 ) > 0， 
V(Xi, X,, 了 Y) 三 4 0， 如 果 (Xj Xi)(Y BE ¥) = 0, (5.22) 
一 1， 如果 (Xj; 一 Xi)(Y; 一 3) <0. 
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定义 Kendall ( 肯 达 尔 ) 7 相关 系数 


a K na—ne 
不 二 > VXi, Xj, Yi, Yi) = pa = Ca (5.23) 





1<i<ij<n 








其 中 nc 是 协同 对 子 的 数目 ， na 是 不 协同 对 子 的 数目 .显然 ， 


K=》 VV=n -n=2n— C2. (5.24) 


上 面 定义 的 了 为 概率 差 
Te 


的 一 个 估计 .容易 看 出 ， -1 < 个 < 1， 事实 上 ， 当 所 有 对 子 都 是 协同 的 ， 则 
KK 二 0%, 此 时 ， 人 个 二 1. 当 所 有 对 子 都 是 不 协同 的 , 则 天 = 一 C2, 此 时 ， 了 他 = 一 1. 

设 站 72 ,Tn 为 由 X1, X2 及 mn 产生 的 秩 统计 量 ， 2 为 由 

K= > sign(7i — 7;) :sign(Ri — R;). (5.25) 
1<i<j<n 

结合 式 (5.25) 和 式 (5.23), 可 以 计算 出 估计 值 7, 这 样 就 可 以 利用 7 值 作 检 
验 ， 当 个 接近 于 0 时 ， 表 示 两 变量 独立 ， 当 了 大 于 某 一 值 时 ， 表 示 两 变量 相关 
( 正 数 表示 正 相 关 ， 人 负数 表 示 负 相关 ). 

在 R 软件 中 ，Kendall 相关 检验 仍 有 也 数 cor .test() 计算 ， 其 计算 方法 与 
Spearman 秩 相关 检验 相同 ， 只 需 将 参数 method 改 成 method = "kendall". 
例 5.23 某 幼 儿 园 对 9 对 双胞胎 的 智力 进行 检验 ， 并 按 百 分 制 打分 . 现 将 资料 如 
表 5.13 所 示 . 试用 Kendall 相关 检验 方法 检验 双胞胎 的 智力 是 否 相 关 . 


表 5.13: 9 对 双胞胎 的 得 分 情况 





双胞胎 对 的 编号 六 -和 
先 出 生 的 儿童 (X) 17 
后 出 生 的 儿童 (Y) 76 64 96 65 80 81 72 60 


解 : 输入 数据 ， 作 检验 
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> X<-c(86, 77, 68, 91, 70, 71, 85, 87, 63) 
> Y<-c(88, 76, 64, 96, 65, 80, 81, 72,，60) 
> cor.test(X, Y, method = "kendall") 
Kendall’s rank correlation tau 

data: X and Y 
T= 31, p-value = 0.005886 
alternative hypothesis: true tau is not equal to 0 
sample estimates: 

tau 
0.7222222 
PP 一 值 小 于 0.05, 拒绝 原 假设 ， 认 为 双胞胎 的 智力 是 相关 的 ， 而 且 是 正 相 关 

的 . 


5.3.7 ”Wilcoxon 秩 检 验 


1. 对 来 自 一 个 总 体 样本 的 检验 


符号 检验 利用 了 观测 值 和 原 假 设 的 中 心 位 置 之 差 的 符号 来 进行 检验 ， 但 是 
已 并 没有 利用 这 些 差 的 大 小 (体现 于 差 的 绝对 值 的 大 小 ) 所 包含 的 信息 ， 不 同 的 
符号 代表 了 中 心 位 置 的 哪 一 边 ， 而 差 的 绝对 值 的 秩 的 大 小 代表 距 中 心 位 置 的 远 
近 ， 如 果 将 两 者 结合 起 来 ， 自 然 比 仅仅 利用 符号 更 有 效 . 这 也 是 下 面 要 介绍 的 
Wilcoxon( 威 尔 科 克 示 ) 符号 秩 检验 (Wilcoxon signed-rank test) 的 宗旨 . 

为 了 弥补 符号 检验 法 之 不 足 , 在 这 里 将 介绍 一 种 在 一 定 程 度 上 考虑 到 样本 观 
察 值 与 总 体 中 位 数 之 间 的 差额 ， 即 |z; 一 Mol( 其 中 i= 1,2,…,n) 的 大 小 的 检验 
方法 . 在 这 里 假定 (1) 总 体 分 布 是 连续 的 ; (2) 总 体 对 其 中 位 数 是 对 称 的 . 这 
样 ， 将 以 上 |z; 一 Mo| 得 到 的 差额 ， 按 递增 次 序 排 列 ， 并 报 据 差额 的 次 序 给 出 相 
应 的 秩 次 Ri, 如 差额 绝对 值 最 小 者 给 以 秩 次 1, 次 小 者 给 以 秩 次 2, ……，…， 最 大 
值 给 以 秩 次 n. 再 按 zi; 一 Mo > 0 为 正 秩 次 ， zi 一 Mo < 0 为 负 秩 次 . 然后 按照 
正 秩 次 和 进行 检验 ， 这 就 是 秩序 和 检验 . 这 种 方法 首先 由 Wilcoxon 提出 的 ， 所 
以 称 为 Wilcoxon 符号 秩 检验 . 

Wilcoxon 检验 不 仅 考 虑 到 每 个 观察 值 比 总 体 中 位 数 Mo 大 还 是 小 ， 而 且 在 
一 定 程 度 上 也 考虑 了 大 多 少 ， 小 多 少 . 在 进行 检验 时 ， 如 果 观 察 值 与 总 体 中 位 数 
的 差额 的 绝对 值 相 等 时 , 就 要 用 平均 秩 次 来 代替 . 例如 ，| 一 Mo| = |zx; 一 Mo| = 
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zx 一 Mol, 首先 ， 给 以 相应 的 秩 次 为 4 、5 、 6, 其 平均 值 为 5 (R 软件 以 平均 值 
定义 相同 值 的 秩 次 ， 三 个 数据 的 秩 次 均 是 5). 此 外 ， 如 果 zi 一 Mo = 0, 就 将 2 
从 观察 数据 中 去 掉 . 


如 果 原 观察 值 的 数目 为 w, 减 去 差额 为 0 的 观察 数据 后 ， 其 样本 数 为 n. 用 
RL 表示 正 秩 次 ， W 表示 正 秩 次 的 和 ， 则 Wilcoxon 统计 量 为 


Ya 二 (5.26) 


因为 nn 个 整数 1,2,.…,n 的 总 和 用 Cs 而 正 秩 次 总 和 可 以 在 区 
间 (0 下) 内 变动 如 果 观 察 值 来 自 中 位 数 为 Mo 的 某 个 总 体 的 假设 为 
真 ， 那 么 Wilcoxon 检验 统计 量 的 取 值 将 是 秩 次 和 的 平均 数 ， 即 / 二 
et Oh 
这 样 ， 在 一 定 的 显著 性 水 平 ， 便 可 进行 检验 了 . 

R 软件 中 的 wilcox.tets() 函数 可 以 作 Wilcoxon 符号 秩 检验 ， 其 其 本 格式 





为 : 
wilcox.test(x, y = NULL， 
alternative = c('"two.sided", "less", "greater'"), 
mu = 0, paired = FALSE, exact = NULL, correct = TRUE， 
conf .int = FALSE, conf.level = 0.95, ...) 


其 中 x,y 是 观察 数据 构成 的 数据 癌 量 . alternative 是 备 择 假设 ， 有 单 侧 检 验 
和 双 侧 检验 ， mu 待 检 参 数 ， 如 中 位 数 jMo. paired 是 逻辑 变量 ,说明 变 量 x，y 
是 否 为 成 对 数据 .， exact 是 逻辑 变量 ， 说 明 是 否 精确 计算 P 一 值 ， 当 样本 量 较 
小 时 ， 此 参数 起 作用 ， 当 样本 量 较 大 时 ， 软 件 采 用 正 态 分 布 近似 计算 P 一 值 . 
correct 是 逻辑 变量 ， 说 明 是 否 对 PP 一 值 的 计算 采用 连续 性 修正 . conf .int 是 
逻辑 变量 ， 说 明 是 否 给 出 相应 的 置信 区 间 . 

例 5.24 假定 某 电 池 厂 宣称 该 厂 生 产 的 某 种 型 号 电池 奉命 的 中 位 数 为 140 安培 
小 时 . 为 了 检验 该 厂 生 产 的 电池 是 否 符 合 其 规定 的 标 淮 ， 现 从 新 近 生 产 的 一 批 电 
池 中 抽取 20 个 随机 样本 ， 并 对 这 20 个 电池 的 寿命 进行 了 测试 ， 其 结果 如 下 ( 单 
位 : 安培 小 时 /) : 

137.0 140.0 138.3 139.0 144.3 139.1 141.7 137.3 133.5 138.2 
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141.1 139.2 136.5 136.5 135.6 138.0 140.9 140.6 136.3 134.1 
试用 Wilcoron 符号 秩 检 验 分 析 该 厂 生产 的 电池 是 否 符合 其 标准 . 
解 : 根据 题 意 作 如 下 假设 : 

Ho : 电池 中 位 数 M > 140 安培 小 时 ; 

有 : 电池 中 位 数 M < 140 安培 小 时 . 
输入 数据 ， 调 用 wilcox.test() 函数 ， 
> X<-scan() 
1: 137.0 140.0 138.3 139.0 144.3 139.1 141.7 137.3 133.5 138.2 
11: 141.1 139.2 136.5 136.5 135.6 138.0 140.9 140.6 136.3 134.1 
21: 
Read 20 items 
> wilcox.test(X, mu=140, alternative='"less', 

exact=FALSE, correct=FALSE, conf.int=TRUE) 
Wilcoxon signed rank test 
data: XX 
V = 34, p-value = 0.007034 
alternative hypothesis: true mu is less than 140 
95 percent confidence interval: 
-Inf 139.2000 

sample estimates: 
(pseudo)median 


138.2000 


这 里 V = 34 是 Wilcoxon 统计 量 ， P- 值 0.007034 < 0.05, 拒绝 原 假 设 ， 即 中 
位 达 不 到 140 安培 小 时 .从 相应 的 区 间 估 计 也 能 得 到 相应 的 结论 . 

上 面 介 绍 了 用 Wilcoxon 符号 秩 检验 方法 检验 一 个 样本 是 否 来 自 某 个 总 体 的 
内 容 . 同样 ， 这 个 方法 也 可 用 于 成 对 样本 的 检验 ， 从 而 说 明 两 个 总 体 是 否 存在 显 
著 差 异 . 
例 5.25 为 了 检验 一 种 新 的 复合 肥 和 原来 使 用 的 肥料 相 比 是 否 显著 地 提高 了 小 麦 
的 产量 ， 在 一 个 农场 中 选择 了 10 块 田地 ， 每 块 等 分 为 两 部 分 ， 其 中 任 指 定 一 部 
分 使 用 新 的 复合 肥料 ， 另 一 部 分 使 用 原 肥 料 . 小 麦 成 熟 后 称 得 各 部 分 小 麦 产 量 如 
表 5.14 所 示 . 试用 Wilcoron 符号 检验 法 检验 新 复合 肥 是 否 会 显著 提高 小 麦 的 
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表 5.14: 使 用 不 同 肥料 情况 下 小 麦 的 产量 (单位 : 千克 ) 





产量 ， 并 与 符号 检验 作 比 较 (a = 0.05). 
解 : 根据 题 意 作 如 下 假设 : 
Ho : 新 复合 肥 的 产量 与 原 肥料 的 产量 相同 ， 
Hi : 新 复合 肥 的 产量 高 于 原 肥 料 的 产量 . 
输入 数据 ， 调 用 wilcox.test() 也 数 ， 
> x<-c(459, 367, 303, 392, 310,342, 421, 446, 430，412) 
> y<-c(414，306，321，443，281，301，353，391，405，390) 


> wilcox.test(x, y, alternative = "greater", paired = TRUE) 








Wilcoxon signed rank test 
data: x and y 
V = 47, p-value = 0.02441 
alternative hypothesis: true mu is greater than 0 
PP 一 值 0.02441 < 0.05, 拒绝 原 假设 ， 即 新 复合 肥 能 够 显著 提高 小 麦 的 产量 . 
用 下 述 命 令 





> wilcox.test(x-y, alternative = "greater'") 
具有 相同 的 效果 . 
如 符号 检验 计算 
> binom.test(sum(x>y), length(x), alternative = "greater'") 


Exact binomial test 
data: sum(x > y) and length(x) 
number of successes = 8, number of trials = 10, p-value = 0.05469 
alternative hypothesis: true probability of success is greater than 0.5 
95 percent confidence interval: 
0.4930987 1.0000000 


sample estimates: 
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probability of success 
0.8 

P 一 值 0.05469 > 0.05, 无 法 拒绝 原 假设 . 此 结果 表明 , 在 a = 0.05 的 水 平 下 , 就 
所 给 数据 而 言 ， 符 号 检验 还 不 足以 区 分 两 种 肥料 对 提高 小 麦 的 产量 产生 差异 . 

比较 两 个 计算 结果 ， 可 以 发 现 ， Wilcoxon 符号 检验 比 符 号 检验 在 探测 差异 
性 方面 更 有 效 . 

2. 非 成 对 样本 的 秩 次 和 检验 

假定 两 个 非 成 对 样本 的 观察 值 为 Xi X2,…, Xn， 和 六 ,2 ,Ys, 其 样本 
容量 分 别 为 nt 和 n2， 现 要 检验 两 个 随机 样本 来 和 目 两 个 总 体 的 中 位 数 是 否 相等 
(如 果 中 位 数 相等 ， 则 认为 两 个 总 体 无 差异 ). 

将 样本 的 观察 值 排 在 一 起 ,Xi, XX2,… ,Xn 六 ,了 2,… Yiw, 仍 设 7,T2,…… ,Tm 
为 由 这 DXo Xm 产生 的 秩 贫 计量 ;Rio og 为 由 Loy 生 
的 秩 统 计量 ， 则 Wilcoxon-Mann-Whitney 统计 量 定义 为 





1) 
es 让 3 R;. (5.27) 


类 似 单 一 总 体 的 Wilcoxon 符号 检验 一 样 ， 可 以 通过 统计 量 U 进行 检验 ,该 检验 
称 为 Wilcoxon 秩 和 检验 . 

及 软件 中 ， 仍 然 是 用 wilcox.test() 完成 Wilcoxon 秩 和 检验 . 
例 5.26 今 测 得 10 名 非 铅 作业 工人 和 7 名 馈 作 业 工 人 的 血 馈 值 ， 如 表 5.15 所 
示 . 试用 Wilcoron 秩 和 检验 分 析 两 组 工人 血 铝 值 有 无 差异 . 


表 5.15: 两 组 工人 的 血 铅 值 (单位 ， 10 一 mmol/L) 
非 铝 作业 组 | 24 26 29 34 43 58 63 72 87 101 


馈 作 业 组 82 87 97 121 164 208 213 


解 : 根据 题 意 作 如 下 假设 : 

Ho : 两 组 工人 血 铅 无 差异 ， 五 ; : 铅 作 业 组 血 铅 高 于 非 铅 作业 组 . 
输入 数据 ， 调 用 wilcox.test() 也 数 ， 
> X<-c(24，26，29，34，43，58，63，72，87，101) 
> y<-c(82，87，97，121，164，208，213) 
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#### 不 采用 连续 修正 
> wilcox.test(x,y,alternative="less",exact=FALSE,correct=FALSE) 
Wilcoxon rank Sum test 
data: x and y 
W = 4.5, p-value = 0.001449 
alternative hypothesis: true mu is less than 0 
#### 采用 连续 修正 
> wilcox.test(x, y, alternative="less", exact=FALSE) 
Wilcoxon rank sum test with continuity correction 

data: x and y 
W = 4.5, p-value = 0.001698 
alternative hypothesis: true mu is less than 0 

W = 4.5 是 Wilcoxon-Mann-Whitney 统计 量 . 在 上 述 计 算 中 ， 无 论 采 用 连 
续 修 正 ， 要 还 是 不 采用 连续 修正 ， 其 P 一 值 均 小 于 0.05, 因此 拒绝 原 假设 ， 即 铅 
作业 组 工人 血 铝 值 高 于 非 铝 作业 组 的 工人 . 
例 5.27 为 了 了 解 新 的 数学 教学 方法 的 效果 是 否 比 原来 方法 的 效果 有 所 提高 ， 从 
水 平 相当 的 10 名 学 生 中 随机 地 各 选 5 名 接受 新 方法 和 原 方法 的 教学 试验 , 充分 
长 一 段 时 间 后 ， 由 专家 通过 各 种 方式 (如 考试 提问 等 ) 对 10 名 学 生 的 数学 能 力 
予以 综合 评 舍 (为 公证 起 见 ， 假 定 专家 对 各 个 学 生 属 于 哪 一 组 并 不 知道 ) 并 按 其 
数学 能 力 由 弱 到 强 排 序 ， 结 果 如 表 516 所 示 . 对 Qa = 0.05, 检验 新 方法 是 否 比 


表 5.16: 学 生 数 学 能 力 排序 结果 (1) 





原 方法 显著 地 提高 了 教学 效果 .车 排序 结果 如 表 5.17 所 示 ， 情况 又 如 何 ? 


表 5.17: 学 生 数 学 能 力 排序 结果 (2) 
4 6 了 9 10 
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解 : 因为 Wilcoxon 秩 和 检验 本 质 只 需 排 出 样本 的 秩 次 ， 而 且 题 目 中 的 数据 
本 喘 就 是 一 个 排序 ， 因 此 可 直接 使 用 . 
> x<-c(3, 5, 7, 9, 10); y<-c(1, 2, 4, 6, 8) 
> wilcox.test(x, y, alternative="greater'") 
Wilcoxon rank sum test 
data: x and y 
W = 19, p-value = 0.1111 
alternative hypothesis: true mu is greater than 0 
P- 值 =0.1111 > 0.05, 无 法 拒绝 原 假设 ， 即 认为 新 的 教学 效果 并 不 显著 优 于 原 
方法 . 
对 于 第 二 种 情况 ， 
> X<-c(4, 6, 7, 9, 10); Y<-c(1, 2, 3, 5, 8) 
> wilcox.test(X, Y, alternative="greater'") 
Wilcoxon rank sum test 
data: X and Y 
W = 21, p-value = 0.04762 


alternative hypothesis: true mu is greater than 0 
PP 一 值 = 0.04762 < 0.05, 拒绝 原 假 设 ， 即 认为 新 的 教学 效果 显著 优 于 原 方法 . 


例 5.28 某 医院 用 某 种 药物 治疗 两 型 慢性 支气管 炎 患 者 共 216 例 , 疗效 由 表 5.18 
所 示 . 试 分 析 该 药物 对 两 型 慢性 支气管 炎 的 治疗 是 否 相 同 . 


表 5.18: 某 种 药物 治疗 两 型 慢性 支气管 炎 疗 效 结果 


疗效 控制 显效 请 无 效 
单纯 型 62 41 14 11 
喘息 型 20 37 16 15 





解 : 我 们 想象 各 病人 的 疗效 用 4 个 不 同 的 值 表示 (1 表示 最 好 ，4 表示 最 差 )， 
这 样 就 可 以 为 这 216 名 病人 排序 ， 因 此 ， 可 用 Wilcoxon 秩 和 检验 来 分 析 问 题 . 
> x<-rep(1:4, c(62, 41, 14,11)); y<-rep(1:4，c(20，37，16，15)) 
> wilcox.test(x, y, exact=FALSE) 


习题 五 293 


Wilcoxon rank sum test with continuity correction 
data: x and y 
W = 3994, p-value = 0.0001242 


alternative hypothesis: true mu is not equal to 0 
PP 一 值 = 0.0001242 < 0.05, 拒绝 原 假设 ， 即 认为 该 药物 对 两 型 慢性 支气管 炎 


的 治疗 是 不 相同 的 ， 因 为 数据 有 结 点 存在 ， 故 无 法 精确 计算 P 一 值 ， 其 参数 为 
exact=FALSE. 





本 方 介绍 了 一 些 重 要 的 非 参 数 检验 方法 ， R 软件 还 提供 了 另外 一 些 非 参数 
检验 方法 ， 这 里 就 不 一 一 列举 了 . 因为 掌握 了 已 有 的 方法 ， 再 学 习 其 他 方法 就 不 
困难 了 ， 使 用 时 可 通过 在 线 帮助 了 解 其 基本 的 使 用 方法 . 
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5.1 正常 男子 血小板 计数 均值 为 225 x 109/ 卫 , 今 测 得 20 名 男性 油漆 作业 工人 
的 血小板 计数 值 (单位 : 103/ 工 ) 

220 188 162 230 145 160 238 188 247 113 

126 245 164 231 256 183 190 158 224 175 
问 油漆 工人 的 血小板 计数 与 正常 成 年 男子 有 无 差异 ? 
5.2 已 知 某 种 灯泡 寿命 服从 正 态 分 布 ， 在 某 星 期 所 生产 的 该 灯泡 中 随机 机 取 10 
只 ， 测 得 其 寿命 (单位 : 小 时 /) 为 

1067 919 1196 785 1126 936 918 1156 920 948 
求 这 个 星期 生产 出 的 灯泡 能 使 用 1000 小 时 以 上 的 概率 ， 
5.3 为 研究 某 铁 剂 治疗 和 饮食 治疗 营养 性 缺 铁 性 和 贫血 的 效果 ,将 16 名 患者 按 年 
龄 、 体 重 、 病 程 和 痪 情 相 近 的 原则 配 成 8 对 ， 分 别 使 用 饮食 疗法 和 补充 铁 剂 治疗 
的 方法 ， 3 个 月 后 测 得 两 种 患者 血红 有 蛋白 如 表 5519 所 示 ， 问 两 种 方法 治疗 后 的 


表 5.19: 铁 剂 和 饮食 两 种 方法 治疗 后 患者 血红 和 蛋白 值 (9/ 刀 
铁 剂 治疗 组 | 113 120 138 120 100 118 138 123 


饮食 治疗 组 | 138 116 125 136 110 132 130 110 
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患者 血红 有 蛋白 有 无 差异 ? 

5.4 为 研究 国产 四 类 新 药 阿 卡 波 糖 胶 过 效果 ， 某 医院 用 40 名 厅 型 糖尿 病 病 人 
进行 同期 随机 对 照 实验 . 试验 者 将 这 些 病人 随机 等 分 到 试验 组 ( 阿 卡 波 糖 胶 党 组 ) 
和 对 照 组 ( 拜 唐 革 胶 盐 组 ), 分 别 测 得 试验 开始 前 和 8 周 后 空腹 血糖 ， 算 得 空腹 血 
糖 下 降 值 ， 如 表 5.20 所 示 . 能 否认 为 国产 四 类 新 药 阿 卡 波 糖 胶 洗 与 拜 唐 蔷 胶 党 


表 5.20: 试验 组 与 对 照 组 空腹 腔 血 糖 下 降 值 (mmol/DL) 
试验 组 |-0.70 -5.60 2.00 2.80 0.70 3.50 4.00 5.80 7.10 -0.50 
(m=20)| 2.50 -1.60 1.70 3.00 0.40 4.50 4.60 2.50 6.00 -1.40 


对 照 组 |3.70 6.50 5.00 5.20 0.80 0.20 0.60 3.40 6.60 -1.10 


(2 一 20)|6.00 3.80 2.00 1.60 2.00 2.20 1.20 3.10 1.70 -2.00 





对 空腹 血糖 的 降 糖 效果 不 同 ? 

(1) 检验 试验 组 和 对 照 组 的 的 数据 是 否 来 自 正 态 分 布 ， 采 用 正 态 性 W 检验 
方法 ( 见 第 三 章 ) 、 Kolmogorov-Smirnov 检验 方法 和 Pearsom 拟 合 优 度 x? 检 
验 ; 

(2) 用 t 一 检验 两 组 数据 均值 是 否 有 差异 ， 分 别 用 方差 相同 模型 、 方 差 不 同 
模型 和 成 对 三 检验 模型 ; 

(3) 检验 试验 组 与 对 照 组 的 方差 是 否 相 同 . 

5.5 为 研究 某 种 新 药 对 抗 凝血 酶 活力 的 影响 ， 随 机 安排 新 药 组 病人 12 例 ， 对 照 
组 病人 10 例 ， 分 别 测定 其 抗 凝 血 酶 活力 (单位 ， mm3), 其 结果 如 下 : 

新 药 组 : 120 125 1936 128 123 138 142 116 110 108 115 7140 

对 照 组 : 162 172 177 170 175 152 157 159 160 162 
试 分 析 新 药 组 和 对 照 组 病人 的 抗 凝 血 酶 活力 有 无 差别 (Qa = 0.05). 

(1) 检验 两 组 数据 是 否 服从 正 态 分 布 ; 

(2) 检验 两 组 样本 方差 是 否 相 同 ; 

(3) 选择 最 合适 的 检验 方法 检验 新 药 组 和 对 照 组 病人 的 抗 凝血 酶 活力 有 无 闺 
别 . 

5.6 一 项 调查 显示 菜 城市 老年 人 口 比重 为 14.7%， 该 市 老年 研究 协会 为 了 检验 
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该 项 调查 是 否 可 靠 , 随机 柚 选 了 400 名 居民 ， 发 现 其 中 有 57 人 是 老年 人 ， 问 调 
查 结果 是 否 支 持 该 市 老年 人 口 比重 为 14.7 卿 的 看 法 (a = 0.05). 

5.7 作 性 别 控 制 试验 ， 经 菜 种 处 理 后 ， 共 是 锥 鸡 328 只 ， 其 中 公 锥 150 只 ， 母 
锥 178 只 ， 试 问 这 种 处 理 能 否 增加 母 锥 的 比例 ? (性 别 比 应 为 1 : 1). 

5.8 Mendel 用 吏 豆 的 两 对 相对 性 状 进行 杂交 实验 ， 黄 色 圆滑 种 子 与 绿色 皱 缩 种 
的 青豆 杂交 后 ， 第 二 代 根 据 自由 组 合 规 律 ， 理 论 分 离 比 为 

9 3 3 1 


黄 团 : 黄 煞 ， 绿 国 : 绿 敏 二 1 2 6 :6 


实际 实验 值 为 : 黄 圆 15 粒 ， 黄 皱 101 粒 ， 绿 贺 108 粒 ， 绿 皱 92 粒 ， 共 556 粒 ， 
问 此 结果 是 否 符 合 自 由 组 合 规律 ? 
5.9 观察 每 分 钟 进 入 菜 商 店 的 人 数 X, 任 取 200 分 钟 ， 所 得 数据 如 下 
顾客 人 数 
频数 
斌 分析， 能 否认 为 每 分 钟 顾 客 数 X 服从 Poisson 分 布 (a = 0.1). 
5.10 观察 得 两 样本 值 如 下 
2 


92 68 28 11 1 0 





I 
试 分 析 ， 两 样本 是 否 来 自 同一 总 体 (a = 0.05). 
5.11 为 研究 分 娩 过 程 中 使 用 胎儿 电子 监测 仪 对 剖腹 产 率 有 无 影响 ， 对 5824 例 
分 娆 的 经 产妇 进行 回顾 性 调查 ， 结 果 如 表 5.21 所 示 ， 试 进行 分 析 . 


4386 4.25 059 3.28 7.21 06.55 





表 5.21: 5824 例 经 产妇 回顾 性 调查 结果 


ee 胎儿 电子 监测 仪 
剖腹 产 ee 合计 
是 587 
否 5237 
合计 5824 
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5.12 在 高 中 一 年 级 男生 中 抽取 300 名 考察 其 两 个 属性 : BB 是 1500 米 长 跑 ， 
C 是 每 天 平均 锻炼 时 间 ， 得 到 4 x 3 列 联 表 ， 如 表 22 所 示 .， 试 对 Q = 0.05， 


表 5.22: 300 名 高 中 学 生体 育 锻炼 的 考察 结果 


1500 米 锻炼 时 间 


长 跑 记 录 2 小 时 以 上 1 一 2 小 时 1 小 时 以 下 
5”01’ ~ 5730/ 
5”31’ ~ 6700/ 
6”01’ ~ 6”30’ 
6”31’ ~ 7”00’ 


合计 





检验 与 0O 是 否 独立 . 
5.13 为 比较 两 种 工艺 对 产品 的 质量 是 否 有 有 影响， 对 其 产品 进行 抽样 检查 ， 其 结 
果 如 表 5.23 所 示 . 试 进行 分 析 . 


表 5.23: 两 种 工艺 下 产品 质量 的 抽查 结果 





合计 
工艺 一 + 
vi es 10 
合计 17 


5.14 应 用 核 素 法 和 对 比 法 检测 147 例 冠 心病 患者 心脏 收缩 运动 的 符合 情况 ,其 
结果 如 表 5.24 所 示 . ” 试 分 析 这 两 种 方法 测定 结果 是 否 相 同 . 
5.15 在 菜 养 鱼 坟 中 ,根据 过 去 经 验 ， 刍 的 长 度 的 中 位 数 为 14.6cm, 现 对 鱼 塘 中 
鱼 的 长 度 进行 一 次 估 测 ， 随 机 地 从 鱼 塘 中 取出 10 条 鱼 长 度 如 下 : 

13.32 13.06 14.02 11.86 13.58 13.77 13.51 14.42 14.44 15.43 
将 它们 作为 一 个 样本 进行 检验 . 斌 分析， 该 鱼 毛 中 鱼 的 长 度 是 在 中 位 数 之 上 ， 还 
是 在 中 位 数 之 下 . 

(1) 用 符号 检验 分 析 ; 
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表 5.24: 两 法 检查 地 时 收缩 运动 的 符合 情 


对 比 法 合计 
正常 63 
减弱 50 
异常 34 
合计 147 





(2) 用 Wilcoxon 符号 秩 检 验 . 


5.16 用 两 种 不 同 的 测定 方法 ， 测 定 同一 种 中 草药 的 有 效 成 分 ， 共 重复 20 次 ， 
得 到 实验 结果 如 表 5.25 所 示 . 


表 5.25: 两 种 不 同 的 测定 方法 得 到 的 结果 
48.0 33.0 37.5 48.0 42.5 40.0 42.0 36.0 11.3 22.0 


36.0 27.3 14.2 32.1 52.0 38.0 17.3 20.0 21.0 46.1 
37.0 41.0 23.4 17.0 31.5 40.0 31.0 36.0 5.7 11.5 
21.0 6.1 26.5 21.3 44.5 28.0 22.6 20.0 11.0 22.3 





(1) 试用 符号 检验 法 检验 两 测定 有 无 显著 差异 ; 
(2) 试用 Wilcoron 符号 秩 检 验 法 检验 两 测定 有 无 显著 差异 ; 
(3) 试用 Wilcoron 秩 和 检验 法 检验 两 测定 有 无 显著 差异 ; 


(4) 对 数据 作 正 态 性 和 方差 齐 性 检验 ， 该 数据 是 否 作 二 检验 ， 如 果 能 ， 了 
作 t 一 检验 ; 


(5) 分 析 各 种 的 检验 方法 ， 试 说 明 哪 种 检验 法 效果 最 好 . 


5.17 调查 某 大 学 学 生 每 周 学 习 时 间 与 得 分 的 平均 等 级 之 间 的 关系 ， 现 抽查 10 
个 学 生 的 资料 如 表 下 : 
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其 中 等 级 10 表 示 最 好 ，1 表示 最 差 . 试用 秩 相关 检验 (Spearman 检验 和 Kendall 
检验 ) 分 析 学 习 等 级 与 学 习 成 绩 有 无 关系 . 

5.18 为 比较 一 种 新 疗法 对 某 种 疾病 的 治疗 效果 , 将 40 名 患者 随机 地 分 为 两 组 ， 

每 组 20 人 , 一 组 采用 新 疗法 ， 另 一 组 用 原 标准 疗法 . 经 过 一 段 时 间 的 治疗 后 ,对 
每 个 患者 的 疗效 作 仔 细 的 评 佑 ， 并 划分 为 差 、 较 差 、 一 般 、 较 好 和 好 五 个 等 级 . 

两 组 中 处 于 不 同等 级 的 患者 人 数 如 表 5.286 所 示 .， 试 分 析 ， 由 此 结果 能 否认 为 新 


表 5.26: 不 同方 法 治疗 后 的 结果 





等 级 差 较 差 一 般 较 好 好 
新 疗法 组 0 1 9 7 3 
原 疗 法 组 2 2 11 4 1 


方法 的 疗效 显著 地 优 于 原 疗 法 (a = 0.05)， 


统计 建 模 与 RR 软件 
(下 册 ) 


薛 毅 陈 立 萍 编著 


清华 大 学 出 版 社 


内 容 简 介 

R 软件 是 一 种 统计 软件 ， 也 是 一 种 数学 计算 环境 . 它 提 供 了 有 
弹性 的 、 互 动 的 环境 来 分 析 、 可 视 及 展示 数据 ， 它 提供 了 若干 统计 
程序 包 ， 以 及 一 些 集成 的 统计 工具 和 各 种 数学 计算 、 统 计 计算 的 函 
数 ， 用 户 只 需 根据 统计 模型 ， 指 定 相应 的 数据 库 及 相关 的 参数 ， 便 
可 灵活 机 动 的 进行 数据 分 析 等 工作 , 甚至 创造 出 符合 需要 的 新 的 统 
计 计 算 方 法 . 使 用 R 软件 可 以 简化 你 的 数据 分 析 过 程 ， 从 数据 的 
存 取 , 到 计算 结果 的 分 享 ，R 软件 提供 了 更 加 方便 的 计算 工具 ， 帮 
助 你 更 好 地 分 析 和 人 解决 问题 ， 通 过 及 软件 的 许多 内 骸 统 计 函 数 ， 
用 户 可 以 很 容易 学 习 和 掌握 R 软件 的 语法 ， 也 可 以 编制 自己 的 函 
数 来 扩展 现 有 的 R 语言 ， 完 成 你 的 科研 工作 . 

本 书 既 深入 浅 出 、 通 俗 易 懂 ， 又 从 数理 统计 的 角度 对 R 软件 
进行 科学 、 准 确 和 全 面 的 介绍 ， 不 仅 介 绍 其 基本 用 法 ， 而 且 简 要 介 
绍 一 些 必须 的 专业 知识 背景 , 以 便 使 读者 能 深刻 理解 该 软件 的 精髓 
和 有 灵活、 高 级 的 使 用 技巧 .此 外， 我 们 还 将 介绍 在 工程 技术 、 经 济 
管理 、 社 会 生活 等 各 方面 的 丰富 的 统计 问题 及 其 统计 建 模 方 法 ， 通 
过 该 软件 其 问题 进行 求解 ,使 读者 获得 从 实际 问题 建 模 入 手 、 到 利 
用 软件 进行 求解 ， 以 及 对 计算 结果 进行 分 析 的 全 面 训 练 . 

本 教材 以 统计 理论 为 基础 ， 按 照 数 理 统 计 教 材 的 章节 顺序 ,在 
讲 明 统计 的 基本 概念 的 同时 ， 以 R 软件 为 辅助 计算 手段 ， 重 点 介 
绍 统计 计算 的 方法 ， 从 而 有 效 地 解决 统计 中 的 计算 问题 . 

本 书 可 作为 理工 、 经 济 、 管 理 、 生 物 等 专业 学 生 数 理 统计 课程 
的 辅导 教材 或 教学 参考 书 ， 也 作为 统计 计算 谍 程 的 教材 ， 和 数学 建 
模 竞 赛 的 辅导 教材 . 
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本 书 力求 将 实用 统计 方法 的 介绍 与 在 计算 机 上 如 何 R 软件 实现 这 些 方法 紧 
密 地 联系 起 来 ,不 仅 介 绍 各 种 上 数理 统计 方法 的 统计 思想 、 实 际 背 景 、 统 计 模型 
和 计算 方法 ， 并 且 结 合 R 软件 ， 给 出 相应 的 解决 问题 的 步骤 和 对 计算 结果 进行 
分 析 . 

关于 数理 统计 的 教材 或 教科 书 已 非常 多 , 这 类 教材 主要 是 以 数理 统计 的 理论 
为 基础 ， 讲 清 其 理论 、 方 法 与 应 用 背景 ， 但 对 于 计算 讲 的 较 少 ， 基 本 是 以 手工 
计算 为 主 ， 目 的 是 为 了 帮助 读者 理解 相应 的 统计 方法 ， 可 操作 性 不 强 . 

关于 统计 计算 的 书 也 有 不 少 ， 目 前 , 统计 计算 的 教材 一 般 是 讲 算法 (这 一 点 
与 数值 分 析 或 计算 方法 差不多 )， 而 没有 相应 的 软件 做 支撑 ， 有 些 内 容 是 数值 分 
析 内 容 的 重复 ， 统 计 味 不 足 . 

结合 软件 讲 统计 的 书 ， 目 前 最 多 的 是 结合 SAS 软件 、 SPSS 软件 . 这 类 书 
籍 基本 上 相当 于 软件 使 用 说 明 书 ， 虽 然 谈 到 一 些 统计 概念 ， 但 讲 的 很 少 . 

本 书 既 不 是 单纯 的 一 本 关于 数理 统计 或 统计 计算 的 教科 书 , 也 不 只 是 一 本 关 
于 R 软件 的 使 用 手册 ， 而 是 一 本 将 两 者 相 结 合 的 教科 书 ， 本 书 的 特点 是 结合 有 
软件 来 讲 数理 统计 的 基本 概论 与 计算 方法 . 

R 软件 是 一 种 统计 软件 ， 也 是 一 种 数学 计算 环境 , 它 提供 了 有 弹性 的 、 互 动 
的 环境 来 分 析 、 可 视 及 展示 数据 ; 它 提 供 了 者 干 统计 程序 包 ， 以 及 一 些 集成 的 统 
计 工 具 和 各 种 数学 计算 、 统 计 计 算 的 函数 ， 用 户 只 需 根据 统计 模型 ， 指 定 相应 的 
数据 库 及 相关 的 参数 ， 便 可 灵活 机 动 的 进行 数据 分 析 等 工作 ， 甚 至 创造 出 符合 需 
要 的 新 的 统计 计算 方法 . 使 用 R 软件 可 以 简化 你 的 数据 分 析 过 程 ， 从 数据 的 存 
取 ， 到 计算 结果 的 分 享 ， R 软件 提供 了 更 加 方便 的 计算 工具 ， 帮 助 你 更 好 地 分 
析 和 解决 问题 . 通过 R 软件 的 许多 内 骨 统 计 函 数 ， 用 户 可 以 很 容易 学 习 和 掌握 
R 软件 的 语法 ， 也 可 以 编制 自己 的 函数 来 扩展 现 有 的 R 语言 ， 完 成 你 的 科研 工 
作 . 

本 教材 的 编写 风格 是 : (1) 以 目前 常见 的 数理 统计 教材 的 内 容 为 基准 ， 首 
先 对 数理 统计 的 基本 概念 、 基 本 方法 作 一 个 简单 、 清 晰 的 介绍 ,在 注重 基础 的 同 
时 ， 侧 重 统计 思想 和 统计 方法 的 介绍 . (2) 以 R 语言 为 主 ， 编 写 相 应 的 计算 程 
序 . 这 部 分 内 容 的 目的 有 两 个 ， 第 一 是 学 习 R 软件 的 编程 方法 ， 擎 握 R 软件 的 
基本 技巧 , 第 二 是 通过 编程 加 深 对 统计 方法 的 了 解 与 掌握 ， 同 时 ,还 可 以 通过 编 
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程 ， 加 深 对 R 软件 中 相关 函数 的 了 解 . (3) 介绍 相关 的 计算 函数 ,针对 许多 统 
计 方法 ， R 软件 提供 了 大 量 的 内 府 计 算 函 数 ， 使 用 者 只 需 输 入 数据 ， 就 可 得 到 
相应 的 结果 . 这 一 部 分 的 写作 重点 是 放 在 对 计算 结果 的 统计 解释 ， 如 何 通过 结果 
来 分 析 已 有 的 数据 ， 着 重 掌握 相应 的 统计 方法 . 这 些 是 本 教材 最 主要 的 特色 ， 也 
是 不 同 于 其 他 与 软件 有 关 的 教材 ， 本 书 着 重 强调 统计 建 模 ， 以 及 如 何 使 用 及 软 
件 得 到 其 计算 结果 和 相应 的 结果 解释 . 

本 书 的 主要 内 容 : 第 一 章 ， 概 率 统计 的 基本 知识 . 主要 目的 是 复习 统计 的 基 
本 知识 , 便于 对 后 面 各 章 内 容 的 理解 . 第 二 章 ，R 软件 的 使 用 . 主要 介绍 R 软件 
的 基本 使 用 方法 . 第 三 章 ， 数 据 描述 性 分 析 ， 从 数据 描述 开始 分 析 数 据 ， 主 要 介 
绍 数据 的 基本 特征 ， 如 均值 、 方 差 ， 还 有 与 数据 有 关 的 各 种 图 形 ， 如 直方 图 、 散 
点 图 等 ， 第 四 章 ， 参 数 佑 计 . 介绍 参数 佑 计 的 基本 方法 ， 如 点 估计 和 区 间 佑 计 . 
着 重 介绍 R 软件 中 与 估计 有 关 的 函数 . 第 五 章 , 假设 检验 . 介绍 假设 检验 的 基本 
方法 ,一 类 是 参数 检验 ， 男 一 类 是 非 参数 检验 ， 非 参数 检验 是 该 章 的 主要 内 容 ， 
重点 介绍 R 软件 中 与 非 参数 检验 的 各 类 函数 和 使 用 方法 . 第 六 章 ， 回归 分 析 . 介 
绍 回归 分 析 的 基本 方法 ， 着 重 介绍 回归 分 析 的 过 程 与 方法 和 如 何 使 用 R 软件 作 
回归 分 析 ， 除 一 般 的 回归 方法 外 ， 还 谈 到 逐步 回归 、 非 线性 回归 的 等 内 容 . 第 七 
章 ， 方 差分 析 . 介绍 单 因 素 方差 分 析 、 双 因素 方差 分 析 ， 以 及 正 交 试验 设计 与 方 
差分 析 之 间 的 关系 . 第 八 章 ， 应 用 多 元 分 析 ( 工 ). 介绍 判别 分 析 和 聚 类 分 析 ， 
这 些 内 容 与 判别 和 分 类 有 关 . 第 九 章 ， 应 用 多 元 分 析 (II ). 介绍 主 成 分 分 析 、 
主因 子 分 析 和 典型 相关 分 析 ， 它 是 应 用 多 元 分 析 中 降 维 计算 的 内 容 . 第 十 章 ， 计 
算 机 模拟 . 介绍 与 计算 机 模拟 的 Monte Carlo 方法 ， 以 及 系统 模拟 方法 ， 最 后 介 
绍 模拟 方法 在 排队 论 中 的 应 用 . 

在 学 习 本 书 的 内 容 之 后 ， 你 会 发 现 ， 尽 管 有 些 统计 内 容 其 计算 是 相当 复杂 
的 ， 但 在 使 用 R 软件 之 后 ， 这 些 问题 可 以 很 轻松 地 得 到 解决 . 

本 书 所 编写 的 R 函数 ， 以 及 所 介绍 的 R 函数 均 以 R-2.1.1 版 为 基础 (目前 
的 版 本 是 R-2.3.1, 而 且 大 约 每 3 至 4 个 月 版 本 会 更 新 一 次 ), 而 且 全 部 程序 均 运 
行 通过 ， 读 者 如 果 需 要 作者 自 编 的 R 程序 ， 可 以 发 电子 邮件 向 作者 索取 ， 邮 件 
地 址 : ”xueyi@bjut.edu.cn. 


本 书 是 为 理工 、 经 济 、 管 理 、 生 物 等 专业 学 生 或 专业 人 员 为 解决 统计 计算 问 
题 而 编写 ， 可 以 作为 上 述 专 业 学 生 数理 统计 课程 的 辅导 教材 或 教学 参考 书 ， 也 作 
为 统计 计算 课程 的 教材 ， 和 数学 建 模 竞 赛 的 辅导 教材 . 
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第 六 章 ”回归 分 析 


在 许多 实际 问题 中 ， 经 常会 遇 到 需要 同时 考虑 几 个 变量 情况 . 例如 ,在 电路 
中 会 遇 到 电压 、 电 流 和 电阻 之 间 的 关系 ; 在 炼 钢 过 程 中 会 遇 到 钢水 中 的 碳 含量 和 
钢材 的 物理 性 能 ( 如 强度 、 延 伸 率 等 ) 之 间 的 关系 . 在 医学 上 经 常 测量 人 的 身高 、 
体重 ， 研 究 人 的 血压 与 年 龄 的 关系 等 ， 这 些 变 量 之 间 是 相互 制约 的 . 

通常 ， 变 量 间 的 关系 有 两 大 类 : 

一 类 是 变量 间 有 完全 确定 的 关系 ， 可 用 函数 关系 式 来 表示 . 如 电路 中 的 欧姆 
定律 














?eT 


其 中 了 表示 电流 ，U 表示 电压 ， RR 表示 电阻. 

另 一 类 是 变量 间 有 一 定 的 关系 , 但 由 于 情况 错综复杂 无 法 精确 研究 , 或 由 于 
存在 不 可 避免 的 误差 等 原因 ， 以致 它们 的 关系 无 法 用 函数 形式 表示 出 来 . 为 研究 
这 类 变量 之 间 的 关系 就 需要 通过 大 量 试验 或 观测 获得 数据 , 用 统计 方法 去 寻找 它 
们 间 的 关系 , 这 种 关系 反映 了 变量 间 的 统计 规律 . 研究 这 类 统计 规律 的 方法 之 一 
便 是 回归 分 析 . 

在 回归 分 析 中 ， 把 变量 分 成 两 类 . 一 是 因 变 量 , 它们 通常 是 实际 问题 中 所 关 
心 的 一 些 指 标 ， 通 常用 Y 表示， 而 影响 因 变 量 取 值 的 另 一 些 变量 称 为 自 变量 ， 
它们 用 Xi, X2,… ,Xp 来 表示 . 

在 回归 分 析 中 研究 的 主要 问题 是 : 

(1) 确定 了 与 Xi X2 ,Xp 间 的 定量 关系 表达 式 . 这 种 表达 式 称 为 回归 方 
程 . 

(2) 对 求 得 的 回归 方程 的 可 信 度 进行 检验 . 

(3) 判断 自 变量 X;(7 = 1,2,…,p) 对 有 无 影响 . 

(4) 利用 所 求 得 的 回归 方程 进行 预测 和 控制 . 











6.1 一 元 线性 回归 


先 从 最 简单 的 情况 开始 讨论 ， 只 考虑 一 个 因 变 量 Y 与 一 个 自 变量 X 之 间 的 
关系 . 
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6.1.1 ”数学 模型 


通过 一 个 例子 来 说 明 如 何 寻 找 站 与 间 的 定量 关系 表达 式 . 
例 6.1 由 专业 知识 知道 , 合金 的 强度 Y(kg/mm”) 与 合金 中 矶 含量 XX(%%) 有 关 . 
为 了 了 解 它 们 间 的 关系 ， 从 生产 中 收集 了 一 批 数据 (Ti, yi), i 二 1,2,…,n, 具体 
数据 见 表 6.1. 





表 6.1: 合金 的 强度 与 合金 中 碳 含量 数据 表 
交合 主 区 应 了 





0.16 49.0 
0.17 53.0 
0.18 50.0 
0.20 55.0 
0.21 55.0 
0.23 60.0 





为 了 直观 起 见 ， 可 画 一 张 “ 散 点 图 *， 以 X 为 模 坐 标 ，Y 为 纵 坐 标 ， 每 一 数 

















| I } I I T T 
0.10 Qt2 0.14 0.16 0.18 0.20 0.22 


X 


图 6.1: 数据 的 散 点 图 与 拟 合 直线 
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在 本 例 中 ， 从 散 点 图 上 发 现 ， 12 个 点 基本 在 一 条 直线 附近 ， 从 而 可 以 认为 
Y 与 XX 的 关系 基本 上 是 线性 的 ， 而 这 些 点 与 直线 的 偏离 是 由 其 它 一 切 不 确定 因 
素 的 影响 造成 的 ， 为 此 可 以 作 如 下 假定 : 


Y=P++AX+e, (6.1) 


其 中 ， bo 二 Bi1X 表示 和 随 X 的 变化 而 线性 变化 的 部 分 = 是 随机 误差 ， 它 是 
其 他 一 切 不 确定 因素 影响 的 总 和 ， 其 值 不 可 观测 . 通常 假定 = ~ N(0, oo); 称 函 
数 /X) = Bo 十 BiX 为 一 元 线性 回归 函数 ， bo 为 回归 常数 ， i 为 回归 系数 ， 
统称 回归 人 参数. 称 X 为 回归 上 自 变 量 (或 回归 因子 )， 称 了 为 回归 因 变 量 (或 响 
应 变量 ). 

车 (zi; 级 ); (7T2;92);:… (Zn,yn) 是 (X,Y) 的 一 组 观测 值 。 则 一 元 线性 回归 模 
型 (the simple linear regression) 可 表示 为 











Yi = bot Dixit Ei ® = (6.2) 
其 中 EB(ei) = 0,var(ei;) = 02, 1 = 1,2,...7n. 
6.1.2 ”回归 参数 的 估计 
求 出 未 知 参数 B60，B1 的 估计 Bo, Pi 的 一 种 直观 想法 是 要 求 图 6.1 中 的 点 
(zi, wi) 与 直线 上 的 点 (zi 六) 的 偏离 越 小 越 好 ， 这 里 各 = 00 十 Bixi, 称 为 回归 值 
或 拟 合 值 . 
全 


er 
nN 


Q(B0,B1) = >_ (yi — Po — Piri)’, (6.3) 
二 下 
则 Bo, Bi 的 最 小 二 乘 估计 是 指使 
Qs) = in (0, D) 


成 立 。 经 计算 可 得 


0 (6.4) 
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1 nN Nn 
2 Day 2 T 2 


i 二 1 i=1 


SI 
| 


nN 


了 = TD Sw = DD)W -nD 


iT 7 二 1 
称 2o, 记 分 别 为 Bo 与 81 的 最 小 二 乘 估 计 ， 称 方程 
Y bo 十 DIX, 
为 一 元 回归 方程 为 (或 称 经 验 回 归 方 程 ). 
通常 取 ， 
2 (wx > bo 瓜 Bzi) 
0 9) 
为 参数 o 的 佑 计量 ，( 也 称 为 o? 的 最 小 二 乘 佑 计 )， 可 以 证 明 5? 是 o? 的 无 偏 
估计 ， 即 86? = o2. 
关于 [0 与 Pi 估计 的 方差 为 
1 2 


Var(B0) 一 oa? ( 十 


Sg 








如 果 o? 未 知 ， 则 用 5 替换 o, 得 到 


ps 元 2 六 分 
a |- + sd(D)= 二 (6.7) 


称 sd(Bo), sd( 房 ) 分 别 为 Bo 与 81 的 标准 差 . 





6.1.3 ”回归 方程 的 显著 性 检验 


从 回归 参数 的 估计 公式 (6.4) 可 知 ， 在 计算 过 程 中 并 不 一 定 要 知道 与 
是 否 有 线性 相关 的 关系 ， 但 如 果 不 存在 这 种 关系 ， 那 么 求 得 的 回 妇 方程 坚 无 意 
义 . 因此 ， 需 要 对 回归 方程 进行 检验 ， 从 统计 上 讲 ， Fi 是 BE(Y) 随 线性 变化 
的 变化 率 , 者 F1 = 0, 则 EE(Y) 实际 上 并 不 随 X 作 线 性 变化 ， 仪 当 B81 关 0 时 ， 
B(Y) 才 随 X 作 线 性 变化 , 也 仅 在 这 时 一 元 线性 回归 方程 才 有 意义 . 因此 假设 检 
难为: 

Ho: B=0, Hi: bd0. 
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通常 采用 三 种 方法 : 
(1) _t 检验 法 . 当 Ho 成 立时 ， 统 计量 


sd(B1) 


对 于 给 定 的 显著 性 水 平 a, 检验 的 拒绝 域 为 
(TI| 2 to2(n 一 2). 
(2) 了 检验 法 。 当 Ho 成 立时 ， 统 计量 
Sw 
se ~ FF(l,n— 2), (6.9) 
对 于 给 定 的 显著 性 水 平 a, 检验 的 拒绝 域 为 


F>F(1l,n—2). 


Ss 
(3) 相关 系数 检验 法 ， 记 = 66, 称 民 为 样本 相关 系数 ， 对 于 给 定 
Ps TT YY 


的 显著 性 水 平 a, 查 相关 系数 临界 值 表 可 得 ra(n 一 2), 则 检验 的 拒绝 域 为 





[RI| > ra(m — 2). (6.10) 


当 拒 绝 有 o 时 ， 认 为 线性 回归 方程 是 显著 的 . 

在 R 软件 中 , 与 线性 模型 有 关 的 函数 有 : 和 
Bredict() 等 ， 我 们 先 用 例子 简单 介绍 其 使 用 方法 ， 最 后 再 给 出 详细 的 介绍 . 
例 6.2 求 例 6.1 的 回归 方程 ， 并 对 相应 的 方程 作 检 验 . 

解 : 利用 R 软件 中 的 lm() 可 以 非常 方便 求 出 回归 参数 0, PB1 和 作 相 应 的 检 


相应 的 R 软件 计算 过 程 如 下 : 
1 
tle, 0.17; 0 
> y<-c(42.0, 43.5, 45.0, 45.5, 45.0, 47.5, 
49.0，53.0，50.0，55.0，55.0，60.0) 
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> lm.sol<-lm(y ~ 1+X) 
> summary (lm.sol1) 
Call: 


lm(formula =y ~ 1+ x) 


Residuals: 
Min 1Q Median 3Q Max 
-2.0431 -0.7056 0.1694 0.6633 2.2653 


Coefficients: 
Estimate Std. Error t value PFIt|) 
(Intercept) 28.493 1.580 18.04 5.88e-09 *** 
x 130.835 9.683 13.51 9.50e-08 *** 
Signif. codes: 0 ‘***’ 0.001 ‘**’ O.01 ‘*’ 0.05 ‘.”0.1“ ”1 


Residual standard error: 1.319 on 10 degrees of freedom 


Multiple R-Squared: 0.9481, Adjusted R-squared: 0.9429 
F=-statistic: 182.6 on 1 and 10 DF, ‘P-value: 9.505e-08 


在 上 述 操作 中 ,第 一 行 是 输入 自 变 量 x, 第 二 行 是 输入 因 变 量 y, 第 三 行 函数 














lm() 表示 作 线 性 模型 ， 其 模型 公式 y ”1+x 表示 的 是 y= Bo0 十 B17 二 5, 第 四 行 
函数 summary() 提取 模型 的 计算 结果 . 

在 计算 结果 的 第 一 部 分 (cal1) 列 出 了 相应 的 回归 模型 的 公式 . 第 二 部 分 
(Residuals:) 列 出 的 是 残 差 的 最 小 值 点 、 1/4 分 位 点 ， 中 位 数 点 、 3/4 分 位 点 
和 最 大 值 点 . 

在 计算 结果 的 第 三 部 分 (Coefficients:) 中 ， Estinate 表示 回归 方程 参 
数 的 估计 ， 即 Bo, Bi，Std，Error ! 表示 回归 参数 的 标准 差 ， 即 sd(6o), sd(p) 
t value 为 t+ 值 ， 即 
bo bo B! _ PVSrs 


Jo = 71 三 Er 
sd(/50) 
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Pa 四 表 示 了 二 值 ， 即 概率 值 P{t > |7|}. 还 有 显著 性 标记 ， 其 中 *** 说 明 极 
在 计算 结果 的 第 四 部 分 中 , Residual standard error 表示 残 差 的 标准 差 ， 

即 式 (6.5) 中 的 3, 其 自由 度 为 -IEGEIEISIRESGGEESE 相关 未 下 辣 下 7 

即 

2 





F=statistigd 表示 下 统计 量 ， 即 





其 自由 度 为 (1,n 一 2). walueeD P- 值 ， 即 概率 值 P{f > |f|}. 
从 计算 结果 可 以 看 出 回归 方程 通过 了 回归 参数 的 检验 与 回归 方程 的 检验 ， 
此 得 到 的 回归 方程 


入 


Y = 28.493 + 130.835X. 
6.1.4 参数 6o 与 Fi 的 区 间 估 计 


在 得 到 fb 与 B61 的 估计 记 与 房 后 ， 有 时 还 需要 对 它们 作 区 间 估 计 , 由 bo 
与 Bi 的 统计 性 质 可 知 ， 


入 











ny ~ tn—2), i=0,1, (6.11) 
对 给 定 的 置信 水 平 1 一 a, 则 有 
加 二 < oo = ao， i=0,1. (6.12) 
因此 ， 6; (i = 0,1) 的 区 间 估 计 为 
1 — sd(B)tana(n — 2), B+sd(B)ton(n— 2)|. (6.13) 


注意 到 ， 在 R 程序 中 ， 线 性 回归 模型 函数 lm() 和 summary() 为 我 们 提供 
了 所 需要 的 值 ， 如 参数 的 佑 计 值 和 相应 的 标准 差 ， 因 此 ， 可 以 很 容易 地 计算 出 式 
(6.13) 给 出 的 区 间 佑 计 值 . 

编写 相应 的 计算 程序 (程序 名 beta.int.R), 并 假设 变量 fm 是 相应 的 拟 合 
模型 . 
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beta.int<-function(fm,alpha=0.05){ 
A<-summary (fm) $coefficients 
df<-fm$df .residual 
left<-A[,1]-A[,2]*qt(1-alpha/2, df) 
right<-A[,1]+A[,2]*qt (1-alpha/2, df) 
rowname<-dimnames (A) [[1]] 
colname<-c("Estimate", "Left", "Right") 
matrix(c(A[,1], left, right), ncol=3, 
dimnames = list(rowname, colname )) 


} 

在 程序 中 ，summary 是 提取 模型 信息 , 返回 值 为 一 列表 , 其 中 $coefficients 
是 由 回归 系数 、 标 准 差 、t 值 和 P- 值 构成 的 矩阵 . 者 fm 是 由 lm 计算 得 到 回归 
模型 ， 其 中 $df .residual 为 模型 的 自由 度 . 1eft 和 right 是 按 式 (6.13) 计算 
区 间 的 左右 端点 . 

函数 的 返回 值 是 一 矩阵 ， 其 元 素 有 0 的 估计 值 和 相应 的 区 间 估 计 ， 下面 看 
一 个 例子 . 

例 6.3 求 例 6.2 中 参数 B 和 PB1 的 区 间 估 计 (a = 0.05). 

解 。 在 计算 回归 模型 后 (lm.sol), 调用 自 编 函数 beta.int.R, 就 可 以 得 到 

相应 的 区 间 佑 计 . 
> source('"beta.int.R'") 


> beta.int(lm.sol) 


Estimate Left Right 
(Intercept) 28.49282 24.97279 32.01285 
x 130.83483 109.25892 152.41074 


其 中 Left 是 佑 计 的 左 区 间 端 点 ， Right 是 估计 的 右 区 间 端 点 . 

从 这 个 例子 可 以 看 出 ， 我 们 不 但 可 以 利用 R 函数 进行 计算 ,还 可 以 通过 R 
函数 的 返回 值 再 计算 ， 得 到 我 们 所 需要 全 部 信息 . 
6.1.5 “预测 


当 经 过 检验 ， 回 归 方 程 是 有 意义 时 ， 可 用 它 人 预测， 这 里 讲 的 预测 可 以 有 两 
方面 的 意义 ， 一 是 当 给 定 X = zo 时 ， 求 相应 平均 值 B(yo) 的 点 估计 与 其 置信 水 
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平 为 1 一 a 的 区 间 估 计 ， 二 是 对 给 定 X = zo 求 yo = fo 十 Bizo 的 预测 值 及 它 的 
概率 为 1 一 a 的 预测 区 间 . 
对 于 X= zo, Y= wo 的 置信 和 度 为 1 一 a 的 预测 区 间 为 





区 一 !， 加 十 小 (6.14) 
其 中 
克 2 
1 多 到 8 二 区 5 (6.15) 
即 


P{o—l<vy<ot+0}=1—a. 


在 实际 问题 中 ， 当 样本 容量 ”很 大 时 ， 对 于 在 3 附近 的 zo, 可 以 得 到 简化 
的 预测 区 间 ， 此 时 (6.15) 式 中 的 根 式 近似 等 于 1. 且 taj2(n 一 2) ~ Zaz, 于 是 加 
的 置信 和 度 为 1 一 a 的 预测 区 间 近 似 地 等 于 


[go — 6Za2, Do + OZa2l. (6.16) 


例 6.4 求 例 6.1 中 X= zo== 0.16 时 相应 了 的 概率 为 0.95 的 预测 区 间 . 
解 : 利用 R 软件 中 的 predict() 可 以 非常 方便 求 出 预测 值 与 预测 区 间 . 
下 面 是 R 软件 的 计算 过 程 : 
> new <- data.frame(x = 0.16) 
> lm.pred<-predict(lm.sol, new, interval="prediction", level=0.95) 
> lm.pred 
fit lwr upr 
[1,] 49.42639 46.36621 52.48657 
第 一 行 表示 输入 新 的 点 Zo 三 0.16, 注意 ， 即 使 就 一 个 点 ， 也 要 采用 数据 框 的 形 
式 . 第 的 函数 predict() 给 出 相应 的 预测 值 , 参数 ijnterval="prediction" 
时 要 给 出 相应 的 预测 区 间 ， 参 数 level=0.95 表示 
个 参数 也 可 以 不 写 ， 因 为 它 的 省 缺 值 就 是 0.95. 
由 计算 结果 得 到 预测 值 与 相应 的 预测 区 间 












应 的 概 窒 为 0.95. 这 





入 


立 (0.16) = 49.43， [46.37, 52.49]. 
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6.1.6 ”控制 

回归 方程 还 可 用 于 控制 . 设 某 质 量 指标 Y 与 某 一 自 变量 X 间 有 线性 相关 关 
系 ， 且 已 求 得 了 线性 回归 方程 立 = 外 十 房 X. 此 外 ， 当 了 € (yy) 为 质量 合 
格 ， 那 么 X 应 控制 在 什么 范围 内 才能 以 概率 1 一 a 保证 质量 合格 ? 这 便 是 一 个 
控制 问题 ， 其 中 y, vy 是 某 种 标准 给 出 的 定 值 . 

控制 可 以 看 成 预测 的 反问 题 ， 即 要 求 观察 值 Y 在 某 一 区 间 (w, 久 ) 内 取 值 
时 ， 问 应 将 X 控制 在 什么 范围 内 . 

由 式 (6.16), 构造 不 等 式 


| Y — OZLa2 po 二 人 6 





|V 


人 (6.17) 





和 人 


7 下 OZaja = bo Biz 十 OLa]2 全 Yu 


由 不 等 式 (6.17) 得 到 x 的 取 值 范围 作为 控制 X 的 上 下 限 . 为 了 保证 得 到 的 控制 
范围 有 意义 ， yw 和 yi 满足 y 一 VY > 26Zay2. 


6.1.7 “计算 实例 


这 里 用 Forbes 数据 为 例 ， 全 面 展 示 一 元 回归 模型 的 计算 过 程 . 
例 6.5 Forbes 数据 

在 十 九 世 纪 四 、 五 十 年 代 ， 苏 格 兰 物理 学 家 James D. Forbes, 试图 通过 水 的 
沸点 来 估计 海拔 高 度 , 他 知道 通过 气压 计 测 得 的 大 气压 可 用 于 得 到 海拔 高 度 ， 高 
度 越 高 ， 气 压 越 低 . 在 这 里 讨论 的 实验 中 ， 他 研究 了 气压 和 沸点 之 问 的 关系 ,由 
于 在 当时 ， 运 输 精 密 的 气压 计 相 当 困难 ,这 引起 了 他 研究 此 问题 的 兴趣 ,测量 沸 
点 将 给 旅行 者 提供 一 个 快速 估计 高 度 的 方法 . 

Forbes 在 阿尔 插 斯 山 及 苏格兰 收集 数据 . 选 定 地 点 后 ， 他 装 起 仪器 ， 测 量 气 
压 及 沸点 . 气压 单位 采用 水 银 柱 高 度 ， 并 根据 测量 时 周围 气温 与 标准 气温 之 间 的 
差异 校准 气压 . 沸点 用 华氏 温度 表示 . 我 们 从 他 1857 年 的 论文 中 选取 了 n= 17 
个 地 方 的 数据 ， 见 表 6.2 所 示 . 在 研究 这 些 数据 时 ， 有 若干 可 能 引起 兴趣 的 问 
题 ， 气 压 及 沸点 是 如 何 联系 的 ? 这 种 关系 是 强 是 弱 ? 我 们 能 否 根 据 温 度 预测 气 
压 ? 如 果 能 ， 有 效 性 如 何 ? 

分 析 过 程 

Forbes 的 理论 认为 ， 在 观测 值 范 围 内 ,沸点 和 气压 值 的 对 数 成 一 直线 . 由 
此 , 取 10 作为 对 数 的 底数 . 事实 上 , 统计 分 析 与 对 数 的 底 是 没有 关系 的 . 由 于 气 
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表 6.2: 在 阿尔 卑 斯 山 及 苏格兰 的 17 个 地 方 沸点 ("F) 及 大 气压 (英寸 示 柱 ) 的 


Forbes 数据 


案例 号 


Oi CO Dm oo DO 一 





沸 上 总 
(°F) 
194.5 
194.3 
197.9 
198.4 
199.4 
199.9 
200.9 
201.1 
201.4 
201.3 
203.6 
204.6 
209.5 
208.6 
210.7 
211.9 
212.2 


气压 
(英寸 孙 柱 ) 
20.79 
20.79 
22.40 
22.67 
23.15 
23.35 
23.89 
23.99 
24.02 
24.01 
25.14 
26.57 
28.49 
27.76 
29.04 
29.88 
30.06 


log 
(气压 ) 
1.3179 
1.3179 
1.3502 
1.3555 
1.3646 
1.3683 
1.3782 
1.3800 
1.3806 
1.3805 
1.4004 
1.4244 
1.4547 
1.4434 
1.4630 
1.4754 
1.4780 


100 x log 
(气压 ) 
131.79 
131.79 
135.02 
135.55 
136.46 
136.83 
137.82 
138.00 
138.06 
138.05 
140.04 
142.44 
145.47 
144.34 
146.30 
147.54 
147.80 


压 的 对 数据 值 变化 不 大 ， 最 小 值 为 1.318, 而 最 大 的 为 1.478, 因此 将 所 有 气压 的 
对 数值 乘 以 100, 如 表 6.2 中 第 5 列 所 示 . 这 将 不 改变 分 析 的 主要 性 质 的 同时 ， 


避免 研究 非常 小 的 数字 . 


求解 过 程 : 


它 既 能 用 于 提示 某 种 关系 ， 也 能 用 于 说 明 这 种 关系 可 能 是 不 适当 的 .在 散 点 图 


中 ，X 轴 为 自 变量 ， 这 里 是 Forbes 数据 中 的 沸点 ， 


100 x log( 气 压 ). 


Y 轴 为 响应 变量 ， 这 里 为 
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输入 数据 ， 画 出 散 点 图 (程序 名 ;exam0804.R). 
X <- matrix(c( 


194.5, 20.79, 1.3179, 131.79,，, 


194.3, 20.79, 1.3179, 131.79,，, 
197.9，22.40，1.3502，135.02， 
198.4，22.67，1.3555，135.55， 
199.4，23.15，1.3646，136.46， 
199.9，23.35，1.3683，136.83， 
200.9，23.89，1.3782，137.82， 
201.1，23.99，1.3800，138.00， 
201.4，24.02，1.3806，138.06， 
201.3，24.01，1.3805，138.05， 
203.6，25.14，1.4004，140.04， 
204.6，26.57，1.4244，142.44， 
209.5，28.49，1.4547，145.47， 
208.6，27.76，1.4434，144.34， 
210.7，29.04，1.4630，146.30， 
211.9，29.88，1.4754，147.54， 
212.2，30.06，1.4780，147.80) ， 


ncol=4, byrow=T, 
dimnames = list(1:17, c("F", "h", "log", "log100"))) 


forbes<-as.data.frame (X) 


plot (forbes$F, forbes$log100) 
Forbes 数据 的 散 点 图 的 总 的 印象 是 ， 这 些 点 基本 上 , 但 并 不 精确 地 ， 落 在 一 
条 直线 上 ， 作 回归 分 析 . 
> lm.sol <- lm(log100 ~ F, data=forbes) 








> summary (lm.so1) 
得 到 
Call: 
lm(formula = log100 ~ F, data = forbes) 
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Residuals : 
Min 1Q Median 3Q Max 
-0.32261 -0.14530 -0.06750 0.02111 1.35924 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) -42.13087 3.33895 -12.62 2.17e-09 *** 
F 0.89546 0.01645 54.45 < 2e-16 *** 


Signif. codes: 0 ’***’ O.001 ?x**’? O0.01 ’*’” 0.05 ”.”0.1 ，” ”1 


Residual standard error: 0.3789 on 15 degrees of freedom 
Multiple R-Squared: 0.995, Adjusted R-squared: 0.9946 
F-statistic: 2965 on 1 and 15 DF, p-value: < 2.2e-16 


由 计算 结果 得 到 |: 


Bo = —42.13087，f1 = 0.89546，sd(Bo) = 3.33895，sd(P1) = 0.01645. 


对 应 于 两 个 系数 的 P- 值 均 < 2.17 x 10“, 是 非常 显著 的 . 

关于 方程 的 检验 , 残 差 的 标准 差 ，6 = 0.3789. 相关 系数 的 平方 ，R? = 0.995， 
关于 F- 分 布 的 P- 值 < 2.2 x10 ,也 是 非常 显著 的 . 

该 模型 能 过 t 检验 生 检验 ， 因此， 回 当 方 程 为 








y = —42.13087 + 0.895467. 


我 们 将 得 到 的 直线 方程 画 在 散 点 图 上 . 
> abline(lm.sol) 
得 到 散 点 图 回归 直线 ， 如 图 6.2 所 示 . 
rm 


入 


= 一 = Poo Pr 4 三 且 坟 和 
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135 
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forbes$F 


图 6.2: Forbes 数据 的 散 点 图 与 回归 直线 


在 RR 软件 中 ， a 计算 残 差 ， 并 画 出 
关于 残 差 的 散 点 图 ， 如 图 6.3 所 示 


> y.res<-residuals(lm.so0l1);plot(y.res) 
> text(12,y.res[12] , labels=12,adj=1 .2) 


其 中 text (12,y.res[12] ，labels=12,adj=1.2) 是 将 第 12 号 残 差 点 标 出 . 


从 图 6.3 可 以 看 到 , 第 12 个 样本 点 可 能 会 有 问题 , 它 比 其 他 的 样本 点 的 残 差 
大 得 多 ， 因 为 其 他 点 的 残 差 的 绝对 值 都 小 于 0.35, 而 此 点 残 差 的 绝对 值 约 为 1.3， 
因此 ， 这 个 点 可 能 不 正确 ， 或 者 模型 的 差 假 设 不 正确 ， 或 者 是 o 不 是 常数 ， 等 
等 ， 总 之 ， 需 要 对 这 个 问题 进行 分 析 (在 后 面 的 回归 诊断 中 会 详细 介绍 分 析 的 方 
法 ). 

这 里 作 简 单 的 处 理 ， 在 数据 中 ， 去 掉 第 12 号 样本 点 . 
> i<-1:17; forbes12<-as.data.frame(X[il=12，]) 
> lm12<-lm(log100~"F, data=forbes12) 
> summary (lm12) 
Call: 
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图 6.3: Forbes 数据 残 差 的 散 点 图 


lm(formula = log100 ~ F, data = forbes12) 


Residuals: 
Min 1Q Median 3Q Max 
-0.21175 -0.06194 0.01590 0.09077 0.13042 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) -41.30180 1.00038 -41.29 5.01e-16 *** 
F 0.89096 0.00493 180.73 < 2e-16 *** 


Signif. codes: 0 ’***’ O.001 ’**’” O.01 ’*’” 0.05 ”.”0.1 ”?”1 


Residual standard error: 0.1133 on 14 degrees of freedom 
Multiple R-Squared: 0.9996, Adjusted R-squared: 0.9995 
F-statistic: 3.266e+04 on 1 and 14 DF, p-value: < 2.2e-16 
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在 去 掉 第 12 号 样本 后 ， 回 归 方程 的 系数 没有 太 大 的 变化 ， 但 系数 的 标准 差 
和 残 差 的 标准 差 有 很 大 的 变化 ， 减 少 了 约 3 倍 左右 ， 相 关系 数 R? 也 有 提高 . 
6.2 及 软件 中 与 线性 模型 有 关 的 函数 
上 面 讲 了 一 元 回归 方程 的 方法 ,在 介绍 多 元 回归 方程 之 前 , 先 简单 的 介绍 及 


软件 中 ， 与 线性 模型 有 关 的 函数 ， 这 些 函 数 的 大 部 分 在 前 面 已 经 用 过 ， 在 后 面 的 
多 元 线性 回归 中 ， 也 经 常会 遇 到 |. 








6.2.1 “基本 范 数 
适应 于 多 元 线性 模型 的 基本 函数 是 a, 其 调用 形式 是 


fitted.model <- lm(formula, data = data.frame) 
其 中 formula 为 模型 公式 . data.frame 为 数据 框 . 返回 值 为 线性 模型 结果 的 
对 象 存 放 在 fitted.model 中 . 例如 
fm2 <- lm(y ”xl + x2, data = production) 
适应 于 y 关于 Z1 和 x2 的 多 元 回归 模型 ( 隐 舍 着 截 距 项 ). 
更 一 般 的 形式 为 
lm(formula, data, subset, weights, na.action, 
method = "gr", model = TRUE, x = FALSE， 
y = FALSE, qr = TRUE, singular.ok = TRUE, 
contrasts = NULL, offset, ...) 
其 中 formula 为 模型 公式 . data 为 数据 框 . subset 为 可 选择 向 量 ,， 表示 观察 
值 的 子 集 ， weights 为 可 选择 向 量 ， 数 据 拟 合 的 权重 ， 其 余 见 在 线 帮助 . 





6.2.2 ”提取 模型 信息 的 通用 函数 


Jm( 函数 的 ; 人 合 结果 的 对 象 , 本质 上 是 一 个 具有 类 属性 值 Im 的 
列表 ， 有 model 、coeffcients 、residuals 等 成 员 . lm() 的 结果 非常 简单 ， 
为 了 获得 更 多 的 信息 ， 可 以 使 用 对 lm() 类 对 象 有 特殊 操作 的 通用 函数 ， 这 些 函 
数 包 括 


add1 coef effects kappa predict residuals 
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alias deviance family labels print step 
anova dropl formula plot proj summary 
下 面 简单 地 介绍 函数 的 使 用 方法 . 
(1) 本 ovV30 函数 一 计算 方差 分 析 表 .， anova() 函数 的 使 用 格式 为 
anova(object,...) 
其 中 object 是 由 lm 或 glm 得 到 的 对 象 . 其 返回 值 是 模型 的 方差 分 析 表 . 
(2) Coefficients() 函数 一 提取 模型 系数 ， 其 简写 形式 为 CoefO9 
coefficients() 函数 (或 coef () 也 数 ) 的 使 用 格式 为 


coefficients(object, ...) 





coef (object, ...) 
其 中 object 是 由 模型 构成 的 对 象 ， 其 返回 值 是 模型 的 系数 . 
(3) deviance() 阴 数 一 计算 残 差 平方 科 . deviance() 了 水 数 的 使 用 格式 为 
deviance(object, ...) 
其 中 object 是 由 模型 构成 的 对 象 . 其 返回 值 是 模型 的 残 差 平方 和 . 
(4) ECGEaalag 函数 一 提取 模型 公式 ， formula() 函数 的 使 用 格式 为 
formula(object, ...) 
其 中 object 是 由 模型 构成 的 对 象 ， 其 返回 值 是 模型 公式 . 
(5) BI6E( 阴 数 一 绘 模型 诊断 图 ， plot() 函数 的 使 用 格式 为 
plot(object, ...) 
其 中 object 是 由 lnm 构成 的 对 象 .绘制 模型 诊断 的 几 种 图 形 ， 显 示 残 差 、 拟 合 
值 和 一 些 诊 断 情况 . 
(6) Predict() 函数 一 作 预 测 . predict() 函数 的 使 用 格式 为 
predict(object, newdata=data.frame) 
其 中 object 是 由 lm 构成 的 对 象 。 newdata 是 预测 点 的 数据 ， 它 由 数据 框 形 式 
输入 ， 其 返回 值 是 预测 值 和 预测 区 间 . 
(7) BF 二 克 有 函 数 一 显示 . print() 函数 的 使 用 格式 为 
print (object, ...) 
其 中 object 是 由 模型 构成 的 对 象 ， 其 返回 值 是 显示 模型 拟 合 的 结果 . 一 般 不 用 
print() 而 直接 用 键入 对 象 的 名 称 来 显示 . 
(3) Fesidda180 本数 一 计算 残 差 . residuals() 函数 的 使 用 格式 为 
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residuals(object， 
type = c("working", "response", "deviance"', 
"pearson", "partial"), 
其 中 object 是 由 lm 或 aov 构成 的 对 象 . type 是 返回 值 的 类 型 其 返回 值 是 
模型 的 残 差 . 简单 的 命令 形式 为 resid(object). 
(9) SEEepG) 函数 一 作 逐 步 回 归 分 析 . step() 函数 的 使 用 格式 为 
step(object, ...) 
其 中 object 是 由 lm 或 glm 构成 的 对 象 . 其 返回 值 是 逐步 回归 ， 根据 AIC 
(Akaike’s An Information Criterion) 的 最 小 值 选择 模型 . 
(10) Bummary() 也 数 一 提取 模型 资料 。 summary() 函数 的 使 用 格式 为 
summary(object, ...) 


其 中 object 是 由 lm 构成 的 对 象 ， 其 返回 值 是 显示 较为 详细 的 模型 拟 合 结果 . 





6.3 ”多 元 线性 回归 分 析 


在 许多 实际 问题 中 影响 因 变 量 Y 的 和 月 变量 往往 不 止 一 个 ， 通 向 设 为 2 个 . 
由 于 此 时 无 法 借助 于 图 形 的 帮助 来 确定 模型 ,所 以 仅 讨论 一 种 最 简单 但 又 普遍 的 
模型 一 多 元 线性 回归 模型 . 
6.3.1 ”数学 模型 


设 变量 Y 与 变量 入, X2,.…, Xp 间 有 线性 关系 


Y=P+PBXit+..+ PoXy+e, (6.18) 


其 中 EY N(0, 0”), bBo, bP1, We ,Bp 和 0? 是 末 知 参数 ， p > 2 称 模型 (6.18) 为 多 
元 线性 回归 模型 . 
设 (Xi, Via , Vip, Yi), 7 一 1,2,…,n 是 (Xi1, Xo,..., X,,Y) 的 n 次 独立 观 
测 值 ， 则 多 元 线性 模型 (6.18) 可 表示 为 
Yi = Po Pri tt Pprip + Ei 1 一 二 2 (6.19) 


其 中 se N(0,0?), 且 独 立 同 分 布 . 
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为 书写 方便 ， 常 采用 惩 阵 形式 ， 令 


Yl1 Do 1 211 212 ** Tip El 

Y2 D1 1 221 0222 + Top E2 
| | | = 

Yn Bp 1 Tnl Ton *** Xnp En 


则 多 元 线性 模型 (6.19) 可 表示 为 
Y = XA+e, (6.20) 


其 中 了 是 由 响应 变量 构成 的 mn 维 向 量 ， 六 是 nx (p 十 1) 阶 设 计 和 矩阵 ， 是 
Pp 十 1 维 向 量 ，。 是 n 维 差 向 量 ， 并 且 满 足 


E(e)=0, Var(s) = oh,. 
6.3.2 ”回归 系数 的 估计 
类 似 于 一 元 线性 回归 ， 求 参数 0 的 估计 值 pb, 就 是 求 最 小 二 乘 函 数 
Q(B) = (y — XB) (y — XP), (6.21) 


达到 最 小 的 6 值 . 
可 以 证 明 6 的 最 小 二 乘 估 计 


B= (XTX) XTy. (6.22) 
从 而 可 得 经 验 回归 方程 为 
Ye 
称 一 y 一 XP 为 残 差 向 量 ， 通常 取 
02=éElE/(n—p—1) (6.23) 
为 oo 的 估计 ， 也 称 为 的 最 小 二 乘 估计 ， 可 以 证 明 : 


五 62 = o2. 
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可 以 证 明 6 的 方差 估计 为 
Var(B) = oa2(0X7 XI) 
相应 的 2 的 标准 差 为 
sd(B) = GVen, 1=0,1,...,p, (6.24) 
其 中 ci 是 C= (XTX)” 对 角 线 上 第 i 个 元 素 2 
6.3.3 ”显著 性 检验 


由 于 在 多 元 线性 回归 中 无 法 用 图 形 帮 助 判断 B(Y) 是 否 随 Xi1, X2,…, Xp 作 
线性 变化 ， 因 而 显著 性 检验 就 显然 得 尤其 重要 . 检验 有 两 种 ， 一 种 是 回归 系数 的 
显著 性 检验 ， 粗 略 地 说 ， 就 是 检验 菜 个 变量 Xi 的 系数 是 否 为 0. 男 一 个 检验 是 
回归 方程 的 显著 性 检验 ,简单 地 说 ,就 是 检验 该 组 数据 是 否 适用 于 线性 方程 作 回 
归 . 


1. 回归 系数 的 显著 性 检验 


Hjo: Bb; = 0, Hii: b; #0, j=0,1,.……,p3 
当 Hjo 成 立时 ， 统 计量 
_ hb 


7 地 C7 > t(n—p— 1), 7 = 0,1,.…,p. 
其 中 ojj 是 C= (X X) :的 对 角 线 上 第 7 个 元 素 . 对 于 给 定 的 显著 性 水 平 a, 检 
验 的 拒绝 域 为 


1 >toa mp—1), 7=0,1,..,p. 


2. 回归 方程 的 显著 性 检验 








Ho: B=Pi=…=By=0， 有 :0,B1,…,Bo 不 全 为 0. 


“为 方便 起 见 ， 认 为 Bo 是 8 的 第 0 个 元 素 ， 下 标 比 从 0 开始， 下 同 
3 通常 的 教科 书 不 考虑 Bo 的 检验 , 但 由 于 R 软件 可 以 提供 bo 的 检验 情况 ,所 以 这 里 了 从 
0 开始 ， 下 同 
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当 Ho 成 立时 ， 统 计量 


SSR/P 


cs SSpg/(n—p—1) 


其 中 
> (yi a Ni) ) 


i 二 1 


Yi = bo 中 Bai 让 Bi 





通 浓 称 罗 5S 司 为 回归 平方 和 ， 称 I95 情 为 残 差 的 平方 和 . 
对 于 给 定 的 显著 性 水 平 a, 检验 的 拒绝 域 为 


F>F(p,n—p—1). 


相关 系数 的 平方 定义 为 
SSr’ 
用 它 来 衡量 Y 与 Xi, X2,…,X 之 间 相 关 的 密切 程度 ， 其 中 SS7 为 总 体 离 差 平 


方 和 ， 即 SSr = 2 (yi 一 奶 … 并 且 满 足 


R 








2 一 工 


9o7 = 一 99P 十 95R. 


例 6.6 根据 经 验 ， 在 人 的 身高 相等 的 情况 下 ,血压 的 收缩 压 Y 与 体重 XI1( 千 克 )) 
年 龄 Xa (岁数 ) 有 关 . 现 收集 了 13 个 男子 的 数据 ， 见 表 6.3. 试 建立 了 关于 
X11, Xo 的 线性 回归 方程 . 
解 : R 软件 中 的 lm() 同样 可 以 求 出 回归 系数 ， 并 作 相 应 的 检验 . 
下 面 是 R 软件 的 计算 过 程 
> blood<-data.frame( 
X1=c(76.0, 91.5, 85.5, 82.5, 79.0, 80.5, 74.5, 
79.0，85.0，76.5，82.0，95.0，92.5) ， 
X2=c(50，20，20，30，30，50，60，50，40，55， 
40，40，20) ， 
Y= c(120，141，124，126，117，125，123，125， 
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XX， Y 
50 125 
40 132 
55 123 
40 132 
40 155 
20 147 





132，123，132，155，147) 


) 
> lm.sol<-lm(Y ~ Xi1+X2, data=blood) 
> summary (lm.so1) 
Call: 
lm(formula = Y ~ Xi1 + X2, data = blood) 


Residuals: 
Min 1Q Median 3Q Max 
-4.0404 -1.0183 0.4640 0.6908 4.3274 


Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) -62.96336 16.99976 -3.704 0.004083 +** 


X1 2.13656 0.17534 12.185 2.53e-07 *** 
X2 0.40022 0.08321 4.810 0.000713 *** 
Signif. codes: 0 ’***’ O.001 ’**’ 0O.01 ’*’” 0.05 ”.”0.1 ”?”1 


Residual standard error: 2.854 on 10 degrees of freedom 
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Multiple R-Squared: 0.9461, Adjusted R-squared: 0.9354 
F-statistic: 87.84 on 2 and 10 DF, p-value: 4.531e-07 

从 计算 结果 可 以 得 到 ， 回 归 系 数 与 回归 方程 的 检验 都 是 显著 的 ， 因此， 回归 方程 
为 





入 


Y = —62.96 + 2.136X1 + 0.4002X,. 


6.3.4 参数 6 的 区 则 估计 
与 一 元 回归 模型 一 样 ， 这 里 讨论 多 元 回归 模型 参数 区 间 佑 计 . 
由 6 的 统计 性 质 可 知 ， 





人 人 
了 四 sd(B,) t(n p 1), 2 0, 1, 也， (6.25) 
1 sd(D) ta/2a(n —p—1), bi a sd(D) ta/2(n —p—1)|. (6.26) 


这 里 就 不 必 于 编写 相应 的 求 区 间 佑 计 的 程序 ， 因 为 6.1.4 节 编 的 程序 beta 
.int.R 是 一 通用 程序 ， 在 这 里 仍然 可 以 使 用 . 
例 6.7 求 例 6.6 中 参数 BP 的 区 闻 估 计 (a = 0.05). 
解 。 调 入 程序 beta.int.R, 然后 求解 . 
> source('"beta.int.R'") 


> beta.int(lm.sol) 


Estimate Left Right 
(Intercept) -62.9633591 -100.8411862 -25.0855320 
x1 2.1365581 1.7458709 2.5272454 
X2 0.4002162 0.2148077 0.5856246 


6.3.5 ”预测 


当 多 元 线性 回归 方程 经 过 检验 是 显著 的 ， 且 其 中 每 一 个 系数 均 显 善 不 为 0 
时 ， 可 用 此 方程 作 预 测 . 
给 定 =zx0= (zo01, Z02， ee Top)’, 将 其 代入 回归 方程 ， 得 到 


Yo = bo 市 pi 本 二 Bop: 
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对 于 关 == zo, Y= 的 置信 和 度 为 1 一 a 的 预测 区 间 为 


(go — 1 加 +0), (6.27) 


l=toan—p— lV1l+a (XTX) vo. (6.28) 


例 6.8 求 例 6.6 中 和 =zo=(80,40)7 时 相应 Y 的 概率 为 0.95 的 预测 区 间 . 
解 : 与 一 元 回归 一 样 ， R 软件 中 的 B69ic0) 函数 求 多 元 回归 预测 也 是 很 
方便 的 . 
下 面 是 R 软件 的 命令 
> new <- data.frame(@B -= 80, 畏 = 40) 


> lm.pred<-predict(lm.sol, new, interval="prediction", level=0.95) 


其 中 


> lm.pred 
fit lwr upr 
[1,] 123.9699 117.2889 130.6509 


由 软件 求 得 , 名 = 123.97, 相应 的 的 概率 为 0.95 的 预测 区 间 为 [117.29, 130.65]. 
6.3.6 ”修正 拟 合 模型 
在 完成 模型 的 计算 后 ， 有 时 还 需要 根据 实际 问题 的 背景 ,对 模型 进行 适当 的 
修正 ， 如 增加 新 的 自 变 量 ， 或 对 响应 变量 Y 取 对 数 或 开 方 运算 等 . 
在 R 软件 中 ,函数 hdateO) 是 一 个 非常 方便 修正 模型 的 函数 ,该 函数 可 以 
在 原 模型 的 基础 上 ， 通 过 加 入 或 去 掉 菜 些 项 来 得 到 新 模型 ， 它 是 形式 是 
new.model <- update(old.model, new.formula) 
在 new.formula 中 ， 其 相应 的 名 字 由 点 “组 成 ， 可 以 被 用 作 表 示 “ 旧 模型 公式 
中 相应 的 部 分 ”， 例 如 ， 
fm5 <- lm(y ~ xl + X2 + x3 + x4 + x5, data = production) 


fm6 <- update(fm5, . ~ . + x6) 











smf6 <- update(fm6, sqrt(.) ~ .) 
表示 五 个 变量 的 多 元 回归 ,数据 的 框 染 是 production, 拟 合 一 个 附加 的 模型 ， 这 
个 模型 中 包含 第 六 个 变量 , 拟 合 不 同 的 模型 ， 在 模型 中 啊 应 变量 使 用 了 平方 根 变 
换 . 
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特别 注意 ， 如 果 data= argument 是 一 种 关于 原 调 用 模型 拟 合 函 数 ， 这 个 信 
奶 是 通过 拟 合 模型 对 象 到 update() 和 它 的 同类 传递 的 . 
模型 中 的 “. ”可 能 用 在 其 它 的 函数 中 ， 但 它 有 稍微 不 同 的 意思 .例如 
fmfull <- lm(y ~ . , data = production) 
拟 合 一 个 模型 ， 其 响应 变量 y 和 回归 因子 变量 和 在 数据 结构 预测 中 其 它 变量 
其 它 函 数 ， 如 探索 逐渐 增长 序列 模型 是 add1() 、drop1() 和 step(). 它们 
的 名 字 已 很 好 地 表明 这 些 函 数 的 目的 ， 对 于 更 详细 的 资料 可 以 看 在 线 帮助 . 











6.3.7 ”计算 实例 


例 6.9 某 大 型 牙膏 制造 企业 为 了 更 好 地 拓展 产品 市 场 , 有 效 地 管理 库存 ,公司 董 
事 会 要 求 销售 部 门 根据 市 场 调查 ， 找 出 公司 生产 的 牙膏 销售 量 与 销售 价格 、 广 告 
投入 竺 之 问 的 关系 ， 从 而 预测 出 在 不 同 价格 和 广告 费用 下 销售 量 . 为 此 ， 销 售 部 
研 的 研究 人 员 收集 了 过 去 30 个 销售 周期 (每 个 销售 周期 为 4 周 ) 公司 生产 的 牙 
这 的 销售 量 、 销 售 价格 、 投 入 的 广告 费用 ， 以 及 周期 其 他 厂家 生产 同类 政 膏 的 市 
场 平 均 销售 价格 ， 如 表 6.4 所 示 ， 试 根据 这 些 数据 建立 一 个 数学 模型 分析 牙 尝 
销售 量 与 其 他 因素 的 关系 ， 为 制订 价格 策略 和 广告 投入 策略 提供 数量 依据 . 


表 6.4: 牙膏 销售 量 与 销售 价格 、 广 告 费用 等 数据 
销售 | 公司 销售 | 其 他 厂家 平 | 价格 差 | 广告 费用 | 销售 量 
周期 | 价格 (元 ) | 均 价格 (元 ) | (元 ) | ( 百 万 元 ) | ( 百 万 支 ) 
7.38 
8.51 
9.52 
7.50 
9.33 
8.28 
8.75 
7.87 
7.10 
8.00 


‘Oi Oo Om oo WO 一 


上 一 
< 
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表 6.4( 续 ) : 牙膏 销售 量 与 销售 价格 、 广 告 费 用 等 数据 


销售 | 公司 销售 | 其 他 厂家 平 | 价格 差 | 广告 费用 | 销售 量 
周期 | 价格 (元 ) | 均 价 格 (元 ) | (元 ) ( 百 万 元 ) | 〈 百 万 支 ) 





11 7.89 
12 8.15 
13 9.10 
14 8.86 
15 8.90 
16 8.87 
17 9.26 
18 9.00 
19 8.75 
20 7.95 
21 7.65 
22 7.27 
23 8.00 
24 8.50 
25 8.75 
26 9.21 
27 8.27 
28 7.67 
29 7.93 
30 9.26 
分 析 





由 于 牙膏 是 生活 必需 品 ， 对 于 大 多 数 顾客 来 说 ,在 购买 同类 产品 的 牙膏 时 ， 
更 多 地 会 关心 不 同 品牌 之 间 的 价格 差 ， 而 不 是 它们 的 价格 本 身 . 因 此， 在 研究 各 
个 因素 对 销售 量 的 影响 时 ,用 价格 差 代 蔡 公司 销售 价格 和 其 他 厂家 平均 价格 更 为 
合适 . 

模型 的 建立 与 求解 
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记 牙 谍 销 售 量 为 Y, 价格 差 为 Xi, 公司 的 广告 费 为 Xz, 假设 基本 模型 为 线性 
模型 
Y =Po+PXit+P Xe. 


输入 数据 ， 调 用 R 软件 中 的 lm() 函数 求解 ， 并 用 summary() 显示 计算 结 
果 (程序 名 : ”exam0609.R). 
> toothpaste<-data.frame( 
X1=c(-0.05, 0.25,0.60,0, 0.25,0.20, 0.15,0.05,-0.15, 0.15, 
0.20，0.10,0.40,0.45,0.35,0.30，0.50,0.50，0.40,-0.05， 
-0.05,-0.10,0.20,0.10,0.50,0.60,-0.05,0,， 0.05，0.55) ， 
X2=c( 5.50,6.75,7.25,5.50,7.00,6.50,6.75,5.25,5.25,6.00, 
6.50,6.25,7.00,6.90,6.80,6.80,7.10,7.00,6.80,6.50， 
6.25,6.00,6.50,7.00,6.80,6.80,6.50,5.75,5.80,6.80) ， 
Y =c( 7.38,8.51,9.52,7.50,9.33,8.28,8.75,7.87,7.10,8.00， 
7.89,8.15,9.10,8.86,8.90,8.87,9.26,9.00,8.75,7.95， 
7.65,7.27,8.00,8.50,8.75,9.21,8.27,7.67,7.93,9.26) 


> lm.sol<-lm(Y“X1i+X2, data=toothpaste) 


> summary (lm.sol1) 


Call: 
lm(formula = Y ~ Xi1 + X2) 


Residuals: 
Min 1Q Median 3Q Max 
-0.497785 -0.120312 -0.008672 0.110844 0.581059 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) 4.4075 0.7223 6.102 1.62e-06 *** 
X1 1.5883 0.2994 5.304 1.35e-05 *** 
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4.733 6.25e-05 *** 


326 
0.5635 0.1191 
0.01 ?*’” 0.05 ”.” 0.1 


”这 


X2 
0 


Signif. codes: 0.001 ?x**? 
Residual standard error: 0.2383 on 27 degrees of freedom 
Adjusted R-squared: 0.8776 


? 阔 阔 炒 ? 


p-value: 1.845e-13 


Multiple R-Squared: 0.886, 
F-statistic: 105 on 2 and 27 DF, 
计算 结果 通过 回归 系数 检验 和 回归 方程 检验 , 由 此 得 到 销售 量 与 价格 差 与 广 


告 费 之 间 的 关系 为 
Y = 4.4075 + 1.5883X1 十 0.5635X2. 


模型 的 进一步 分 析 
为 进一步 分 析 回 归 模 型 ， 我 们 画 出 y 与 zl 和 与 x2 散 点 图 ， 从 散 点 图 上 
可 以 看 出 ,对 于 y 与 zt, 用 直线 拟 合 较 好 . 而 对 于 y 与 22, 则 用 二 次 曲线 拟 合 较 





好 ， 如 图 6.4 所 示 . 











7.0 








5.5 
X2 


T 
0.6 
TZ2~Y 


(b) 











(a) 


TZ1I~Y 
图 6.4: zx1,x2 和 vy 的 散 点 图 和 拟 合 曲线 








Tn 





绘 出 图 6.4 的 R 命令 如 下 : 
#### 绘 Xi 与 9 的 散 点 图 和 回归 直线 
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> attach(toothpaste) 

> plot(Y-X1); abline(lm(Y>X1) ) 

#### 绘 Z2 与 9 的 散 点 图 和 回归 曲线 

> lm2.sol<-lm(Y“X2+I(X2°2)) 

> x<-seq(min(X2), max(X2) , len=200) 

> y<-predict (lm2.sol, data.frame (X2=x)) 

> plot (YX2); lines(x,y) 

其 中 I(X2~2) 表示 模型 中 Xs 的 平方 项 ， 即 X32. 
从 图 6.4 看 出 ， 将 销售 量 模型 改 为 





一 如 二 DAXi + BaoXo + BsaX2+e 


似乎 更 合理 ， 我们 作 相 应 的 回归 分 析 ， 

> lm.new<-update(lm.sol, .~ .+I(X2°2)) 

> summary (lm.new) 

Call: 

lm(formula = Y ~ Xi + X2 + I(X2°2), data = toothpaste) 


Residuals: 
Min 1Q Median 3Q Max 
-0.40330 -0.14509 -0.03035 0.15488 0.46602 


Coefficients: 


Estimate Std. Error t value Pr(>|t|) 


(Intercept) 17.3244 5.6415 3.071 0.004951 +** 

X1 1.3070 0.3036 4.305 0.000210 *** 

X2 -3.6956 1.8503 -1.997 0.056355 . 

I(X2°2) 0.3486 0.1512 2.306 0.029341 +* 

Signif. codes: 0 ’***’ 0.001 ’**’ O.01 ’*’” 0.05 ”.”0.1 ”?”1 


Residual standard error: 0.2213 on 26 degrees of freedom 
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Multiple R-Squared: 0.9054， Adjusted R-squared: 0.8945 
F-statistic: 82.94 on 3 and 26 DF, p-value: 1.944e-13 


此 时 ， 我 们 发 现 ， 模 型 残 差 的 标准 差 5 有 所 下 降 ， 相 关系 数 的 平方 R? 有 所 上 
升 ， 这 说 明 模 型 修正 是 合理 的 . 但 这 也 出 现 一 个 问题 ， 就 是 对 应 于 bo 的 P- 值 
> 0.05. 为 进一步 分 析 ， 作 有 的 区 间 售 计 . 
> source('"beta.int.R") 
> beta.int(lm.new) 
Estimate Left Right 
(Intercept) 17.3243685 5.72818421 28.9205529 
X1 1.3069887 0.68290927 1.9310682 
X2 -3.6955867 -7.49886317 0.1076898 


I(X2°2) 0.3486117 0.03786354 0.6593598 
记 的 区 间 估 计 是 a 


能 会 为 0. 
去 掉 X 的 一 次 项 ， 再 进行 分 析 . 


> lm2.new<-update(lm.new, .~ .-X2) 





> summary (lm2.new) 
Call: 
lm(formula = Y ~ Xi + I(X2°2), data = toothpaste) 


Residuals: 
Min 1Q Median 3Q Max 
-0.485943 -0.114094 -0.004604 0.105342 0.559195 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) 6.07667 0.35531 17.102 5.17e-16 *** 
X1 1.52498 0.29859 5.107 2.28e-05 *** 
I(X2°2) 0.04720 0.00952 4.958 3.41e-05 *** 


Signif. codes: 0 ’***’ O.001 ?x**’? O0.01 ’*’” 0.05 ”.”0.1 ” ”1 
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Residual standard error: 0.2332 on 27 degrees of freedom 
Multiple R-Squared: 0.8909, Adjusted R-squared: 0.8828 
F-statistic: 110.2 on 2 and 27 DF, p-value: 1.028e-13 


此 模型 虽然 通过 了 上 检验 和 工 检验 ,但 与 上 一 模型 对 比 来 看 ，5 上 升 ，RR? 
下 降 ， 这 又 是 此 模型 也 之 处 . 





Y = /0+ PXit PoXo t+ BaX? 十 GaX1X2 十 <. 


> lm3.new<-update(lm.new, .~ .+X1i*X2) 

> summary (lm3.new) 

Call: 

lm(formula = Y ~ Xi + X2 + I(X2°2) + X1:X2, data = toothpaste) 


Residuals : 
Min 1Q Median 3Q Max 
-0.437250 -0.117540 0.004895 0.122634 0.384097 


Coefficients: 


Estimate Std. Error t value Pr(>|t|) 


(Intercept) 29.1133 7.4832 3.890 0.000656 *** 

X1 11.1342 4.4459 2.504 0.019153 六 

X2 -7.6080 2.4691 -3.081 0.004963 +** 

I(X2°2) 0.6712 0.2027 3.312 0.002824 +** 

X1:X2 -1.4777 0.6672 -2.215 0.036105 * 

Signif. codes: 0 ’?***’ O.001 ?x**’? O0.01 ’*’” 0.05 ”.”0.1 ” ”1 


Residual standard error: 0.2063 on 25 degrees of freedom 
Multiple R-Squared: 0.9209, Adjusted R-squared: 0.9083 
F-statistic: 72.78 on 4 and 25 DF, p-value: 2.107e-13 
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Y = 29.1133 + 11.1342X — 7.6080X2 十 0.6712X2 — 1.4777X1X, 十 =. 


6.4 逐步 回归 


6.4.1 “最 优 ” 回 归 方 程 的 选择 


在 实际 问题 中 ， 影 响 因 变量 y 的 因素 很 多 ， 人们 可 以 从 中 挑选 若干 个 变量 建 
立 回 归 方程 ， 这 便 涉 及 变量 选择 的 问题 . 


一 般 来 讲 ， 如 果 在 一 个 回归 方程 中 忽略 了 对 了 有 显著 影响 的 自 变 量 ， 那 么 
所 建立 的 方程 必 与 实际 有 较 大 的 偏离 ， 但 变量 选 得 过 多 , 使 用 就 不 方便 ， 特 别 当 
方程 中 含有 对 了 影响 不 大 的 变量 时 ， 可 能 因为 $5 的 自由 度 的 减 小 而 使 0 的 
We 从 而 影响 使 用 回归 方程 作 预 测 的 精度 . 因此 适当 地 选择 变量 以 建立 一 

“最 优 ” 的 回归 方程 是 十 分 重要 的 . 

什么 是 “最 优 ” 回 归 方 程 吧 ? 对 于 这 个 问题 有 许多 不 同 的 准则 ， 在 不 同 的 准 
则 下 “最 优 ”回归 方程 也 可 能 丕 园 ， 这 里 讲 的 “最 优 > 是 指 人 可 供 选择 的 所 有 变 
旺 中 话 避 对 工 显著 影响 的 变量 建立 方程 ， 且 在 方程 中 不 含 对 》 无 显著 曙 

在 上 述 意 义 下 ， 可 以 有 多 种 方法 来 获得 “最 优 ” 回 归 方 程 ， 如 “一 切 子 集 回 
归 法 ?”、“ 前 进 法 ”、“ 后 退 法 ”、“ 逐 步 回 归 法 ”等 ， 其 中 “逐步 回归 法 ”由 于 计 
算 机 程序 简便 ， 因 而 使 用 较为 普遍 . 
































6.4.2 ”逐步 回归 的 计算 


R 软件 提供 了 较为 方便 的 “逐步 回归 ”计算 函数 区 本 ( 六 它 是 以 AO 信息 
统计 量 汶 汇 则 ， 通 过 选择 最 未 的 KIC 信息 统计 革 ， 来 达到 删除 或 增加 变量 的 目 
的 . 

step() 函数 的 使 用 格式 为 


step(object, scope, scale = 0， 


direction = c("both", "backward", "forward"), 


trace = 1, keep = NULL, steps = 1000, k = 2， 
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其 中 fbjsc 昌 是 回归 模型 ， Ecope 是 确定 逐步 搜索 的 区 域 . Bcale 用 于 AIC 统 
计量 (direction 确定 逐步 搜索 的 方向 ， 缺 省 值 为 6ota0 是 “一 切 子 集 回 归 
法 ”， "6ackward' 是 后 退 法 ”， "forward" 是 “前 进 法 ”. 其 他 参数 见 在 线 帮助 

在 这 里 不 具体 介绍 通常 概率 统计 教科 书 上 的 逐步 回归 计算 公式 , 而 是 通过 一 
个 简单 的 例子 , 介绍 如 何 使 用 R 软件 来 完成 逐步 回归 的 过 程 ， 从 而 达到 选择 “最 
优 ” 方 程 的 目的 . 

例 6.10 某 种 水 泥 在 凝固 时 放出 的 热量 》( 卡 / 克 ) 与 水 泥 中 四 种 化 学 成 分 XX1， 
六。，X3,，X4 有 关 ， 现 测 得 13 组 数据 ， 如 表 6.5 所 示 . 希望 从 中 选 出 主要 的 变 
量 ， 建 立 了 关于 它们 的 线性 回归 方程 . 


表 6.5: 数据 表 


和 2 Xs Xu Y 

31 22 44 72.5 
54 18 22 93.1 
47 4 26 115.9 
40 23 34 83.8 
66 9 12 113.3 
68 8 12 109.4 





解 : 首先 作 多 元 线性 回归 方程 
> cement<-data.frame( 
X1=c( 7, 1, 11, 11, 7, 11, 3, 1, 2, 21, 1, 11, 10), 
X2=c(26, 29, 56, 31, 52, 55, 71, 31, 54, 47, 40,，66,，68)， 
X3=c( 6, 15, 8, 8, 6, 9, 17, 22, 18, 4, 23, 9， 8)， 
X4=c(60, 52, 20, 47,33, 22, 6，44，22，26，34，12，12) ， 
Y =c(78.5, 74.3, 104.3, 87.6, 95.9, 109.2, 102.7, 72.5, 
93.1,115.9, 83.8，113.3，109.4) 
) 
> lm.sol<-lm(Y ~ X1+X2+X3+X4, data=cement) 
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Vv 


> summary (lm.so1) 
Call: 
lm(formula = Y ~ Xi1 + X2 + X3 + X4, data = cement) 


Residuals: 
Min 1Q Median 3Q Max 
-3.1750 -1.6709 0.2508 1.3783 3.9254 


Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) 62.4054 70.0710 0.891 0.3991 


X1 1.5511 0.7448 2.083 0.0708 . 

X2 0.5102 0.7238 0.705 0.5009 

X3 0.1019 0.7547 0.135 0.8959 

X4 -0.1441 0.7091 -0.203 0.8441 

Signif. codes: 0 ’***’ O.001 ?x**’? O0.01 ’*’” 0.05 ”.”0.1 ” ” 工 


Residual standard error: 2.446 on 8 degrees of freedom 
Multiple R-Squared: 0.9824, Adjusted R-squared: 0.9736 
F-statistic: 111.5 on 4 and 8 DF, p-value: 4.756e-07 


为 回归 方程 的 系数 没有 一 项 通过 检验 . 
下 面 用 函数 step() 作 逐 步 回 归 . 
> lm.step<-step(lm.sol1) 


Start: AIC= 26.94 
Y ”~ Xi1 + X2 + X3 + X4 


Df Sum of Sq RSS AIC 
- X3 1 0.109 47.973 24.974 
- X4 1 0.247 48.111 25.011 
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-X2 1 2.972 50.836 25.728 


<none> 47.864 26.944 
— X1 1 25.951 73.815 30.576 


Step: AIC= 24.97 
Y~ Xi1 + X2 + X4 


Df Sum of Sq RSS AIC 


<none> 47.97 24.97 
— X4 1 9.93 57.90 25.42 
— X2 1 26.79 74.76 28.74 


— X1 1 820.91 868.88 60.63 


从 程序 运行 结果 可 以 看 到 ， 用 全 部 变量 作 回 归 方 程 时 ， AIC 值 为 26.94. 接 
下 来 显示 的 数据 表 告 诉 你 ， 如 果 去 掉 变 量 Xs, 得 到 回归 方程 的 AIC 值 为 24.974. 
如 果 去 掉 变 量 X4, 得 到 回归 方程 的 AIC 值 为 25.011. 后 面 的 类 推 ， 由 于 去 掉 变 
量 Xs 可 以 使 AIC 达到 最 小 , 因此 ，R 软件 自动 去 掉 变 量 Xs, 进行 下 一 轮 计算 . 

在 下 一 轮 计算 中 ， 无 论 去 掉 哪 一 个 变量 ， AIC 值 均 会 升 高 ， 因 此 R 软件 终 
止 计算 ， 得 到 “最 优 ” 的 回归 方程 . 

下 面 分 析 一 下 计算 结果 ， 用 函数 summary() 提取 相关 信息 . 
> summary(lm.step) 


Call: 
lm(formula = Y ~ Xi + X2 + X4, data = cement) 





Residuals: 
Min 1Q Median 3Q Max 
-3.0919 -1.8016 0.2562 1.2818 3.8982 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) 71.6483 14.1424 5.066 0.000675 *** 
X1 1.4519 0.1170 12.410 5.78e-07 *** 
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X2 0.4161 0.1856 2.242 0.051687 . 
X4 -0.2365 0.1733 -1.365 0.205395 
Signif. codes: 0 ’?***’ O.001 ’**’? O0.01 ’*’” 0.05 ”.”0.1 ”’”1 


Residual standard error: 2.309 on 9 degrees of freedom 
Multiple R-Squared: 0.9823, Adjusted R-squared: 0.9764 
F-statistic: 166.8 on 3 and 9 DF, p-value: 3.323e-08 


由 显示 结果 看 到 : 回归 系数 检验 的 显著 性 水 平 有 很 大 提高 ， 但 变量 X2, Xa 


系数 检验 的 显著 性 水 平 仍 不 理想 .下 面 如 何 处 理 呢 ? 
在 有 软件 中 ,还 有 两 个 函数 可 以 用 来 这 两 个 函数 是 EaatGy) 和 


(Gz6B109 它们 的 使 用 格式 为 
addi(object, scope, 
dropl(object, scope, 


addi(object, scope, scale=0, test=c("none", "Chisq"), 


k=2, trace=FALSE, ...) 


dropli(object, scope, scale=0, test=c('"none", "Chisq"), 


k=2, trace=FALSE, ...) 


addi(object, scope, scale=0, test=c("none", "Chisq", "F'"), 
x=NULL, k=2, ...) 
dropli(object, scope, scale=0, all.cols=TRUE, 
test=c("none", "Chisq", "F"), k=2, ...) 
其 中 65jéc 是 由 拟 合 模型 构成 的 对 象 . Bcopa 是 模型 考虑 增加 或 去 掉 项 构成 
的 公式 ，Ecale 是 用 于 计算 0; 的 残 差 的 均 方 估计 值 ， 缺 省 值 为 0 或 NULL. 其 他 
见 在 线 帮 助 . 
下 面 用 drop1() 计算 . 


> dropi(lm.step) 





Single term deletions 
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Model: 
Y~ Xi1 + X2 +X4 
Df Sum of Sq RSS AIC 


<none> 47.97 24.97 
X1 1 820.91 868.88 60.63 
X2 1 26.79 74.76 28.74 
X4 1 9.93 57.90 25.42 


从 运算 结果 来 看 ， 如 果 去 掉 变 量 X4, AIC 值 会 从 24.97 增加 的 25.42, 是 增 
加 的 最 少 的 ， 另 外 ， 除 AIC 准则 外 ， 残 差 的 平方 和 也 是 逐步 回归 的 重要 指标 之 
一 ， 从 直观 来 看 ， 拟 合 越 好 的 方程 ， 残 差 的 平方 和 应 越 小 , 去掉 变量 X4, 残 差 的 
平方 和 上 升 9.93, 也 是 最 少 的 . 因此， 从 这 两 项 指标 来 看 ， 应 该 再 去 掉 变 量 X4. 


> lm.opt<-lm(Y ~ X1+X2，data=cement); summary (lm.opt) 
Call: 
lm(formula = Y ~ Xi1 + X2, data = cement) 





Residuals: 
Min 1Q Median 3Q Max 
-2.893 -1.574 -1.302 1.362 4.048 


Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) 52.57735 2.28617 23.00 5.46e-10 *** 


X1 1.46831 0.12130 12.11 2.69e-07 *** 
X2 0.66225 0.04585 14.44 5.03e-08 +*** 
Signif. codes: 0 ’***’ O.001 ?x**’? 0.01 ’*’” 0.05 ”.”0.1 ，” ”1 


Residual standard error: 2.406 on 10 degrees of freedom 
Multiple R-Squared: 0.9787, Adjusted R-squared: 0.9744 
F-statistic: 229.5 on 2 and 10 DF, p-value: 4.407e-09 


这 个 结果 应 该 还 是 满意 的 ， 因 为 所 有 的 检验 均 是 显著 的 . 最 后 得 到 “最 优 ” 
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的 回归 方程 为 


入 


Y = 52.58 + 1.468X1 + 0.6622X,. 


6.5 ”回归 诊断 


6.5.1 ”什么 是 回归 诊断 


在 前 面 ， 我 们 给 出 了 利用 逐步 回归 来 选择 对 因 变 量 Y 影响 最 显著 的 自 变量 
进入 回归 方程 的 方法 ， 并 且 还 可 以 利用 AIC 准则 或 其 他 准则 来 选择 最 优 回归 模 
型 . 但 是 这 些 只 是 从 选择 自 变量 上 来 研究 ， 而 没有 对 回归 模型 的 一 些 特 性 做 更 进 
一 步 的 研究 ,， 并 且 没 有 研究 引起 异常 样本 问题 ,异常 样本 的 存在 往往 会 给 回归 模 
型 带 来 不 稳定 . 为 此 ， 人 们 提出 所 谓 回归 诊断 的 问题 (Fe6g@r6ssion diagnostics), 其 
主要 内 容 有 : 

(1) 关于 误差 项 是 否 满足 

(a) 独立 性 ; 

(b) 等 方差 性 ; 

(c) 正 态 性 . 

(2) 选择 线性 模型 是 否 合适 ? 

(3) 是 否 存在 异常 样本 ? 

(4) 回归 分 析 的 结果 是 否 对 某 些 样本 的 依赖 过 重 ? 也 就 是 说 ,回归 模型 是 否 具 备 
稳定 性 ? 

(5) 自 变 量 之 间 是 否 存 在 高 度 相 关 ? 即 是 否 有 和 多重 共 线 性 问题 存在 ? 
下 面 的 例子 充分 说 明了 回归 诊断 的 重要 性 . 

例 6.11 图 的 有 用 性 (Anscomber, 1973) 

表 0.6 给 出 的 四 组 人 造 数据 ， 每 组 数据 集 由 11 对 点 (Ti,Yi) 组 成 ， 拟 合 于 
简单 线性 模型 






































Yi = Po Pixit ei. 
试 分 析 四 组 数据 是 否 通 过 回归 方程 的 检验 , 并 用 图 形 分 析 每 组 数据 的 基本 情况 . 
解 : 输入 数据 ， 作 回归 分 析 (程序 名 : ”exam0611.R). 


Anscombe<-data.frame( 


X=c(10.0，8.0，13.0，9.0，11.0，14.0，6.0，4.0，12.0，7.0，5.0) ， 





数据 
号 1-3 
,< 
1 10.0 
9 8.0 
3 13.0 
4 9.0 
5 11.0 
6 14.0 
7 6.0 
8 4.0 
9 12.0 
10 5 
11 5.0 
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表 6.6: Anscomber 数据 


数 据 组 号 
1 2 3 
Y Y Y 
8.04 9.14 7.46 
6.95 8.14 6.77 
7.58 8.74 12.74 
8.81 8.77 7.11 
8.33 9.26 7.81 
9.96 8.10 8.84 
7.24 6.13 6.08 
4.26 3.10 5.39 
10.84 9.13 8.15 
4.82 7.26 6.44 


5.68 4.74 5.73 


19.0 
8.0 
8.0 
8.0 
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Yil=c(8.04,6.95, 7.58,8.81,8.33,9.96,7.24,4.26,10.84,4.82,5.68), 
Y2=c(9.14,8.14，8.74,8.77,9.26,8.10,6.13,3.10，9.13,7.26,4.74) ， 
Y3=c(7.46,6.77,12.74,7.11,7.81,8.84,6.08,5.39，8.15,6.44,5.73) ， 
X4=c(rep(8,7) ，19，rep(8,3) ) ， 


Y4=c(6.58,5.76,7.71,8.84,8.47,7.04,5.25,12.50，5.56,7.91,6.89) 


) 


summary (lm(Y1~“X, data=Anscombe)) 


summary (lm(Y2~X, data=Anscombe)) 


summary (lm(Y3“X, data=Anscombe)) 


summary (lm(Y4~X4,data=Anscombe)) 


这 四 组 数据 的 计算 结果 由 表 6.7 所 示 (最 多 有 0.01 的 误差 ). 从 表 6.7 所 列 结 
果 ， 可 以 说 明 ， 这 四 组 数据 全 部 能 通过 模型 检验 和 方程 的 系数 检验 . 由 于 每 个 数 
据 集 得 到 的 各 种 统计 量 的 值 是 相同 的 , 因此 ， 可 能 会 认为 每 个 数据 集合 对 于 线性 
模型 会 同等 的 适用 ， 但 事实 确 非 如 此 . 
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表 6.7: 四 组 数据 的 计算 结果 


系数 估计 值 标准 差 全 值 P- 值 
bo 3.0 1.125 2.67 0.026 
Bi 0.5 0.118 4.24 0.0022 

方程 | $= 1.24， R? = 0.667, F = 17.99, = 0.002 





Ws 应 的 回归 直线 ， ce 


第 一 个 数据 集合 , 见 图 6.5(a). 如 果 简 单线 性 回归 模型 合适 的 话 , 这 就 是 我 们 
期 望 看 到 的 数据 集合 . 图 6.5(b) 给 出 第 二 个 数据 集合 ， 它 给 出 一 个 不 同 的 结论 ， 
即 基于 人 简单 线性 回归 分 析 是 不 正确 的 ， 而 一 条 光滑 曲线 ， 可 能 是 二 次 多 项 式 ， 可 
以 以 较 小 的 剩余 变异 拟 合 数据 . 
> lm2.sol<-lm(Y2~X+I(X*2), data=Anscombe); summary (lm2.so01) 

Call: 
lm(formula = Y2 ~ xX + I(X~2), data = Anscombe) 





Residuals: 
Min 1Q Median 3Q Max 
-0.0013287 -0.0011888 -0.0006294 0.0008741 0.0023776 


Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) -5.9957343 0.0043299 -1385 <2e-16 *** 


X 2.7808392 0.0010401 2674 <2e-16 *** 
I(X°2) -0.1267133 0.0000571 -2219 <2e-16 *** 
Signif. codes: 0 ’***’ O.001 ’**’? O0.01 ’*’” 0.05 ”.”0.1 ” ”1 


Residual standard error: 0.001672 on 8 degrees of freedom 
Multiple R-Squared: 1, Adjusted R-squared : 1 
F-statistic: 7.378e+06 on 2 and 8 DF, p-value: < 2.2e-16 


6.5 回归 诊断 339 





















































5 10 15 20 5 10 15 20 


(c) 数据 3 (d) 数据 4 
图 6.5: Anscombe 数据 的 散 点 图 
因此 ， 回 归 方 程 为 
y = —5.9957343 + 2.7808392x — 0.12671337z” 


更 合理 ( 见 图 6.6(a)). 
图 6.5(c) 表示 ， 简 E H*] 4H 1 E 日 一 个 相 本 距离 
合 回归 直线 汪 这 称 为 显 党 值 问题 很 可 外 E 需 要 从 数据 集合 中 删除 那个 与 其 
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他 数据 不 匹配 的 数据 样本 .回归 需要 根据 剩 下 的 10 个 样本 重新 拟 合 . 
> i<-1:11; Y31<-Anscombe$Y3[i!=3]; X3<-Anscombe$X[i!=3] 

> lm3.sol<-lm(Y31~X3); summary (lm3.so01) 

Call: 

lm(formula = Y31 ~ X3) 


Residuals: 
Min 1Q Median 3Q Max 
-0.0060173 -0.0012121 -0.0010173 -0.0008225 0.0140693 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) 4.0106277 0.0057115 702.2 <2e-16 *** 
X3 0.3450433 0.0006262 551.0 <2e-16 *** 


Signif. codes: 0 ’***’ O.001 ’**’? O0.01 ’*’” 0.05 ”.”0.1 ” ”1 


Residual standard error: 0.006019 on 8 degrees of freedom 
Multiple R-Squared: 1, Adjusted R-squared : 1 
F-statistic: 3.036e+05 on 1 and 8 DF, p-value: < 2.2e-16 


得 到 的 线性 回归 方程 为 
y = 4.0106277 + 0.3450433z. 


图 6.6(b) 绘 出 修正 后 的 直线 方程 . 





在 及 软件 中 ， 下 列 函 数 


influence.measures rstandard rstudent dffits 


cooks .distance dfbeta dfbetas covratio 


hatvalues hat 
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(a) 数据 2, 采用 二 次 拟 合 (b) 数据 3, 去 掉 一 个 样本 
图 6.6: Anscombe 数据 修正 后 的 回归 曲线 


每 回归 诊断 有 关 ， 关 于 函数 的 使 用 方法 ， 在 讲 到 相关 内 容 时 ， 再 具体 的 介绍 . 
6.5.2 ” 残 差 


在 利用 最 小 二 乘 原理 求 总 2 让 OT 
[下 态 性 的 假设 . 但 对 实际 上 的 p 填 1 个 变量 的 n 组 样本 数据 所 求 得 世 
的 残 差 ， 是 知 满 足 这 三 个 性 质 还 应 该 进行 讨论 ， 在 讨论 残 差 的 检 
先 讨 论 残 关 

1. 普通 残 差 

设 线性 回归 模型 为 









Y= XP+e, (6.29) 
其 中 YY 是 由 响应 变量 构成 的 n 维 向 量 ， 和 是 nx (p 十 1) 阶 设计 和 矩阵，B 是 
2 十 1 维 向 量 ，= 是 n 维 误差 向 量 . 
回归 系数 的 估计 值 
B= X) XY (6.30) 
拟 合 值 了 为 
?= XP=X(XTX) XTY = HY, (6.31) 
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其 中 
H=X(XX) XY”. (6.32) 
ee 
敬一 多 = (1-H)Y. (6.33) 


R 软件 中 的 Pesidials() 函数 (或 6sid0 函数 ) 提供 了 模型 残 差 的 计算 ， 其 使 
用 方式 为 





其 中 object 为 回归 模型 . 
在 得 到 残 差 后 ， 可 以 对 残 差 进行 检验 ， 如 正 态 性 检验 等 
例 6.12 对 例 6.5(Forbes 数据 ) 得 到 回归 模型 得 到 的 残 差 作 WW 正 术 性 检验 . 
解 , 在 计算 完 例 6.5 的 回归 模型 后 ， 计 算 其 残 差 ， 并 用 shapiro.test() 函 
数 ( 见 第 三 章 3.2.4 节 ) 作 残 差 的 正 态 性 检验 . 
> y.res<-residuals (lm.so1) 
> shapiro.test(y.res) 
Shapiro-Wilk normality test 
data: y.res 
W = 0.5465, p-value = 3.302e-06 
因此 ， 残 差 不 满足 正 态 性 假设 . 
在 去 掉 第 12 号 样本 后 ， 再 对 所 得 到 回归 模型 的 残 差 进行 正 态 性 检验 . 
> y1i2.res<-residuals (lm12) 
> shapiro.test(y12.res) 
Shapiro-Wilk normality test 
data: yli2.res 
W = 0.9222, p-value = 0.1827 


能 通过 正 态 性 检验 ， 因 此 ， 去 掉 第 12 号 样本 点 还 是 合理 的 . 


2. 标准 化 (内 学 生化 ) 残 差 
4 因为 向 量 Y 被 五 左 乘 后 ， 变 成 了 , 由 此 得 名 
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由 差 向 量 < 的 性 质 ， 得 到 





E(E) =0, Var(é) =0o(T—H). (6.34) 
因此 ， 对 每 个 Ei， 有 
Ei 
i (6.35) 
其 中 hi; 是 矩阵 玉 对 角 线 上 的 元 素 . 


用 个 ( 见 式 (6.23)) 作为 o? 的 估计 值 ， 称 


(6.36) 





为 标准 化 残 差 (人 
tized Tesidia 引 ). 这 因为 o? 的 估计 中 用 了 包括 第 i 个 样本 在 内 的 全 部 数据 ， 由 式 
(6.35) 可 知 ， 标 准 化 残 差 7; 近似 服从 标准 正 态 分 布 . 

R 软件 中 ， 也 数 EF5tamdard( 计算 回归 模型 的 标准 化 (内 学 生化 ) 残 差 ， 其 
使 用 格式 为 





pp lm 或 glm 生成 的 对 象 . pm lm.influence es 
影响 结构 。 sd 是 模型 的 标准 差 . 
3. 外 学 生化 残 差 
车 记 删除 第 i 个 样本 数据 后 ， 由 余下 的 n 一 1 个 样本 数据 求 得 的 回归 系数 为 
Bw 做 0? 的 估计 值 ， 有 
x 1 cc 2 
CE (Yi -Ee) ， (6.37) 
jzi 
其 中 X; 为 设计 矩阵 X 的 第 7 行 . 称 


E; 


2i(00) = (6.38) 
为 学 生化 残 差 (5tudentized residua), 或 者 称 为 外 学 生化 残 差 (externally studen= 


tized residual). 
R 软件 中 ,函数 Fst0dent( 间 计算 回归 模型 的 (外 ) 学 生化 残 差 , 其 使 用 格式 
为 
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其 中 model 是 由 lm 或 glm 生成 的 对 象 . inf1l1 是 由 lm.influence 返回 值得 到 
的 影响 结构 . res 是 模型 残 差 . 
下 面 介 绍 用 残 差 图 检验 残 差 的 方法 . 


6.5.3 ” 残 差 图 


以 残 差 名 为 纵 坐 标 ， 以 拟 合 值 挛 
为 横 坐 标的 散 点 图 统 自然 数 为 残 差 民 

1. 回归 值 Y 与 残 差 的 残 差 图 

为 检验 建立 的 多 元 线性 回归 模型 是 否 合适 , 可 以 通过 回归 值 Y 与 残 差 的 散 点 
图 来 检验 . 其 方法 是 画 出 回归 值 了 与 普通 残 差 的 散 点 图 ((Y,é;), i = 1,2,.…,n)， 
或 者 画 出 回归 值 Y 与 标准 残 差 的 散 点 图 ((Yi,7;), i = 1,2,:…,n)， 其 图 形 可 能 会 
出 现下 面 三 种 情况 (如 图 6.7 所 示 ). 















图 6.7: 回归 值 Y 与 残 差 的 散 点 图 








对 于 图 6.7(a) 的 情况 ， 不 论 回归 值 了 的 大 小 ， 而 残 差 2 (或 六) 具有 相同 的 
分 布 ， 并 满足 模型 的 各 假设 条 件 ， 对 于 图 6.7(b) 的 情况 ， 表 示 回 归 值 Y 的 大 小 
与 残 差 的 波动 大 小 有 关系 ， 即 等 方差 性 的 假设 有 问题 ， 对 于 图 6.7(c), 表示 线性 
模型 不 合适 ， 应 考虑 非 线 性 模型 . 

对 于 图 6.7(a), 如 果 大 部 分 点 都 落 在 中 间 部 分 , 而 只 有 少数 几 个 点 落 在 外 边 ， 
则 这 些 点 对 应 的 样本 ， 可 能 有 异常 值 存在 . 

例 6.13 画 例 6.6 普通 残 差 的 散 点 图 和 标准 化 残 差 的 散 点 图 . 
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解 : 在 计算 出 例 6.6 的 回归 模型 后 ， 计 算 普 通 残 差 和 标准 化 残 差 ， 并 画 出 相 
应 的 散 点 图 . R 的 命令 如 下 : 
#### 画 残 差 图 
> y.res<-reéesid(lm.so1l); y.fit<-predict(lm.sol) 
> plot(y.res“y.fit) 
#### 画 标 准 化 残 差 图 


> y.rst<-rstandard(lm.sol1) 
































> plot(y.rst“y.fit) 
绘 出 的 图 形 如 图 6.8(a) 、(b) 所 示 . 








0 
ll 
yrst 
-1.5 -1.0 -0.5 0.0 QS 1.0 i 




















T I T 
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yfit yfit 


(a) 残 差 图 (b) 标准 化 残 差 图 
图 6.8: 例 6.6 的 残 差 图 
从 图 6.8 可 以 看 出 ， 残 差 具 有 相同 的 分 布 且 满足 模型 的 各 假设 条 件 . 


再 仔细 分 析 ， 当 残 差 服从 正 态 分 布 的 假设 成 立时 ， 标 准 化 残 差 应 近似 在 服从 
标准 正 态 分 布 ， 根据 正 态 分 布 的 性 质 ， 若 随机 变量 X ~ N(1,o”), 则 有 


—20<X<h+20}= 0.954. 


也 就 是 说 ， 外 ， 
可 以 证 明 ， 拟 合 值 Y 与 残 差 相互 独立 ， 因 而 与 标准 化 残 差 ,72, …, rn 也 独 
立 . 所 以 ， 如 果 以 拟 合 值 六 为 横 坐 标 ， m 为 纵 坐 标 ， 那 么 平面 上 的 点 (Yi,7i)， 
i = 1,2,.…,n 大 致 应 落 在 宽度 为 4 的 水 平 带 |mi| < 2 的 区 域内 , 且 不 呈现 任何 趋 
势 ， 从 这 种 角度 看 ， 通 过 标准 化 残 差 图 ， 更 容易 诊断 出 回归 模型 是 否 出 现 问 题 . 
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回 过 来 ， 再 看 图 6.8(b), 所 有 点 均 在 宽度 为 4 的 水 平 带 |ri| < 2 中 ， 且 不 呈 
现任 何 趋势 ， 因 此 ， 例 6.6 的 模型 应 该 是 合适 的 . 
例 6.14 某 公 司 为 了 研究 产品 的 营销 策略 ， 对 产品 的 销售 情况 进行 了 调查 . 设 
为 某 地 区 该 产品 的 家 庭 人 均 购买 量 (单位 : 元 ), X 为 家 庭 人 均 收 入 (学 位 :元 小 
表 6.8 给 出 了 知 个 家 庭 的 数据 ， 试 通过 这 些 数 据 建 立 了 与 X 的 关系 式 . 


表 6.8: 某 地 区 家 庭 人 均 收入 与 人 均 购买 量 数据 
序号 | X( 元 ) Y( 元 ) X( 元 ) Y( 元 ) X( 元 ) 了 (元 ) 





1 770 1.74 
2 724 4.10 
3 808 3.94 
4 790 0.96 
5 783 3.29 
6 406 0.44 
7 1242 3.24 
8 658 2.14 
9 1746 5.71 
10 468 0.64 
11 1114 1.90 
12 413 0.51 
13 1787 8.33 
14 3560 14.94 
15 1495 5.11 
16 2221 3.85 
17 1526 3.93 
18 


解 : 输入 数据 ， 作 线性 回归 模型 (程序 名 : ”exam0614.R) 
X<-scan() 
679 292 1012 493 582 1156 997 2189 1097 2078 
1818 1700 747 2030 1643 414 354 1276 745 435 
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540 874 1543 1029 710 1434 837 1748 1381 1428 

1255 1777 370 2316 1130 463 770 724 808 790 
783 406 1242 658 1746 468 1114 413 1787 3560 
1495 2221 1526 


Y<-scan() 

0.79 0.44 0.56 0.79 2.70 3.64 4.73 9.50 5.34 6.85 
5.84 5.21 3.25 4.43 3.16 0.50 0.17 1.88 0.77 1.39 
0.56 1.56 5.28 0.64 4.00 0.31 4.20 4.88 3.48 7.58 
2.63 4.99 0.59 8.19 4.79 0.51 1.74 4.10 3.94 0.96 
3.29 0.44 3.24 2.14 5.71 0.64 1.90 0.51 8.33 14.94 
5.11 3.85 3.93 


lm.sol<-lm(Y“X); summary (lm.sol) 


得 到 
Call: 
lm(formula = Y ~ XxX) 
Residuals: 
Min 1Q Median 3Q Max 


-4.1399 -0.8275 -0.1934 1.2376 3.1522 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) -0.8313037 0.4416121 -1.882 0.0655 . 
X 0.0036828 0.0003339 11.030 4.11e-15 *** 


Signif. codes: 0 ’***’ O.001 ’**’ O.01 ’*’” 0.05 ”.”0.1 ”?”1 


Residual standard error: 1.577 on 51 degrees of freedom 
Multiple R-Squared: 0.7046, Adjusted R-squared: 0.6988 
F-statistic: 121.7 on 1 and 51 DF, p-value: 4.106e-15 
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回归 方程 通过 t 检验 和 下 检验 ， 所 以 Y 对 六 的 一 元 经 验 回归 方程 为 


Y = 一 0.8313 + 0.003683X. 


再 作 回归 诊断 ， 画 出 标准 化 残 差 散 点 图 


y.rst<-rstandard(lm.sol); y.fit<-predict(lm.sol) 
plot(y.rst“y.fit) 
abline(0.1,0.5);abline(-0.1,-0.5) 


其 图 形 由 图 6.9(a) 所 示 . 
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(a) 异 方差 情况 (b) 变换 后 的 情况 


图 6.9: 例 6.6 的 标准 化 残 差 图 


直观 上 容易 看 出 ， 残 差 图 从 左 向 右 逐 渐 散 开 呈 漏斗 状 ， 这 是 残 差 的 方差 不 相 
等 的 一 个 征兆 .考虑 对 响应 变量 了 作 变 换 ， 作 开 方 运算 . 相应 的 R 程序 为 
1]m.new<-update(lm.sSo1l，Ssqrt(.)~.); coef(lm.new) 


其 中 国 5date 是 模型 修正 函数 .E66 下 是 提取 回归 系数 .计算 结果 为 


(Intercept) xX 
0.582225917 0.000952859 
由 此 得 到 经 验方 程 


VY = 0.582225917 + 0.000952859X, 
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即 


Y = (0.582225917 十 0.000952859X)? 
= 0.338987 十 0.001109558X 十 9.079403 x 10-'X?. 


再 画 出 变换 后 的 标准 化 残 差 散 点 图 
yn.rst<-rstandard(lm.new); yn.fit<-predict(lm.new) 


plot (yn.rst“yn.fit) 
其 图 形 由 图 6.9(b) 所 示 ， 散 点 图 的 趋势 有 较 大 改善 
2. 残 差 的 Q-Q 图 
在 第 三 章 介绍 了 检验 正 态 分 布 的 方法 一 Q-Q 图 . 这 里 可 以 用 Q-Q 图 的 方法 
检验 残 差 的 正 态 性 
设 so 是 残 差 的 次 序 统计 量 ，i 二 1,2,…,n, 令 


1 一 0.375 
四 一 更 -1 一 1 2 
d(i) (es) 7 ; 达 ， ) 7 








其 中 B(x) 为 标准 正 态 分 布 N(0,1) 的 分 布 函数 ，B~1(7z) 为 反 函 数 . 称 gq6) 为 Ea 
的 期 望 值 . 

可 以 证 明 , 者 &(i = 1,2,…,n) 是 来 自 正 态 分 布 总 体 的 样本 ， 则 点 (dd Ea) 
(i == 1,2,.…,n) 应 在 一 条 直线 上 ， 因 此 ， 若 残 差 的 正 Q-Q 图 中 的 点 的 大 致 趋势 
明显 地 不 在 一 条 直线 上 ， 则 有 理由 怀疑 对 误差 的 正 态 性 假设 的 合理 性 ， 否则 可 认 
为 误差 的 正 态 性 假设 是 合理 的 . 

用 R 软件 画 正 态 Q-Q 残 差 图 非常 简单 ， 只 需 一 个 命令 

plot (model, 2) 

其 中 model 是 由 lm 生成 的 对 象 . 

3. 以 自 变 量 为 横 坐标 的 残 差 图 

以 每 个 Xi < 7 < p) 的 各 个 观测 值 xij(1 < i < mm) 为 点 的 横 坐 标 ， 即 以 自 
变量 为 横 坐 标的 残 差 图 ， 与 拟 合 值 》 为 横 坐 标的 残 差 图 一 样 ， 满 意 的 残 差 图 呈 
现 图 6.7(a) 的 水 平 带 状 . 如 果 图 形 呈 现 图 6.7(b) 的 形状 ， 则 说 明 误 差 是 等 方差 
的 假设 不 合适 . 若 呈 现 图 6.7(c) 的 形状 ， 则 需要 在 模型 中 添加 X; 的 高 次 项 , 或 
者 对 了 做 变换 . 











350 第 六 章 回归 分 析 


例 6.15 画 出 例 6.6 关于 自 变量 为 横 坐 标的 残 差 图 . 
解 : 在 作 完 成 回归 模型 后 ， 计 算 残 差 ， 并 画 出 图 形 . 
> y.res<-resid(lm.sol) 


> plot(y.res“x1); plot(y.res“x2) 
图 形 如 图 6.10 所 示 . 
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(a) 以 Xi 为 横 坐 标 (bp) 以 Xs 为 模 坐标 


图 6.10: 例 6.6 的 以 XX 、 Xo 为 横 坐 标的 残 差 图 





从 图 6.10 可 以 看 出 ， 回 归 模 型 效果 是 好 的 . 
在 R 软件 中 ，%B165( 函数 可 以 画 出 回归 模型 的 残 差 图 ， 其 使 用 格式 为 
plot(x, which = 1:4, 





caption = c("Residuals vs Fitted", "Normal Q-Q plot", 
"Scale-Location plot", "Cook’s distance plot"), 

panel = points, 

sub.caption = deparse(x$call), main = "", 


ask = prod(par("mfcol"))<length(which)&&dev.interactive(), 


”3 


id.n = 3, labels.id = names(residuals(x)), cex.ig 0.75) 


Es ,amd i 
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广 折 全 人 天 4 和 oak 抽风 的 天国， caption 


是 图 题 的 内 容 ， 其 余 见 在 在 线 帮助 . 
6.5.4 影响 分 析 


所 谓 有 影响 分 析 就 是 探查 对 估计 或 有 异常 大 影响 的 数据 . 在 回归 分 析 中 的 一 个 
重要 假设 是 ,使 用 的 模型 对 所 有 数据 是 适当 的 . 在 应 用 中 ， 有 一 个 或 多 个 样本 其 
观测 值 似乎 与 模型 不 相符 ,但 模型 拟 合 于 大 多 数 数据 ， 这 种 情况 并 不 罕见 ， 例 如 
例 6.11 第 三 组 数据 的 情况 . 

如 果 一 个 样本 不 遵从 某 个 模型 ， 但 其 余数 据 遵从 这 个 模型 ， 则 称 该 样本 点 为 
强 影 响 点 (也 称 为 异常 值 点 ). 影响 分 析 的 一 个 重要 功能 是 区 分 这 样 的 样本 数据 . 

1. 帽子 矩阵 太 的 对 角 元 素 

由 式 (6.31) 得 到 ，Y = HY. 从 几何 上 讲 ，Y 是 Y 在 义 的 列 向 量 张 成 子 
空间 内 的 投影 “, 并 且 满 足 

OY; 
OY 
因此 ， hi 的 大 小 可 以 表示 第 i 个 样本 值 对 六 影响 的 大 小 ， 再 考虑 六 的 方差 


Var( 切 ) = hiio’, 





hi 


因此 ， hi; 双 反 映 了 回归 值 7 的 波动 情况 . 
由 投影 矩阵 互 的 性 质 得 到 ， 


i=1 = 


所 以 ， Hoaglin 和 Welsch(1978) 给 出 一 种 判断 异常 值 点 的 方法 ， 如 果 当 


2(p 十 1 
Wei (6.39) 


则 可 认为 第 io 组 的 样本 影响 较 大 ， 可 以 结合 其 他 准则 ， 考 虑 是 否 将 其 别 除 . 
由 于 帽子 矩阵 (投影 秆 阵 )H 的 对 角 线 上 的 元 素 hii (i = 1 2 …,m) 是 很 重 
要 的 统计 信息 量 ， 因 此 R 软件 也 给 出 计算 函数 atvalues() 和 hat( 其 使 用 
格式 为 
5 由 于 ”= 五 , H? = 及 ,所 以 称 五 为 投影 矩阵 
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hatvalues (model ,inf1=lm.influence (model,dqo.coef=FALSE) ,...) 





hat(x,intercept=TRUE) 
其 中 model 是 回归 模型 ， x 是 设计 矩阵 X. 


2. DFFITS 准则 
Belsley Kuh 和 Welsch (1980) 给 出 另 一 种 准则 ， 计 算 统 计量 





Di(o) = a a (6.40) 
其 中 o 的 估计 量 用 06) 来 代 蔡 . 对 于 第 i 个 样本 ， 如 果 有 
Diol> 2V2 (6.41) 
则 认为 第 i 个 样本 的 影响 比较 大 ， 应 引起 注意 . 
R 软件 给 出 了 DFFITS 准则 的 计算 函数 GffitsO, 其 使 用 格式 为 
dffits(model, infl = , res = ) 
其 中 model 是 回归 模型 . 
例 6.16 用 DFFITS 准则 判断 例 6.2 中 的 异常 值 样本 点 ， 
解 : 在 计算 出 回归 模型 后 ， 利 用 dffits() 函数 作 判 断 . 
> p<-1; n<-nrow(forbes); d<-dffits(lm.sol) 
> cf<-1:n;i cf[d>2*sqrt((p+1)/n)] 
[1] 12 
因此 ， 第 12 号 样本 点 可 能 是 异常 值 点 . 
3. Cook 统计 量 
Cook 在 1977 年 提出 了 Cook 统计 量 ， Cook 统计 量 定 义 为 
3 9 TXT 3 fb. 


(p+ 1)02 
其 中 Oo 为 删除 第 i 个 样本 数据 后 的 估计 值 ， 由 余下 的 n 一 1 个 样本 数据 求 得 的 
回归 系数 .经 过 推导 ， Cook 统计 量 可 以 改写 为 


1 hh: 
D;=——— 2 6.43 
(和) 4 和 和 ) 7 ( ) 
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其 中 7; 是 标准 化 残 差 . 
R 软件 给 出 了 计算 Cook 统计 量 的 计算 函数 EcoKssdistance(G) 其 使 用 格 
式 为 
cooks .distance(model ,inf1=lm.influence(model ,do.coef=FALSE), 


res=weighted.residuals (model1) ， 


sd=sqrt(deviance(mode1l)/dqf .residual (model)), 
hat=infl$hat, ...) 





其 中 model 是 回归 模型 . 

直观 上 讲 ， Cook 统计 量 D; 越 大 的 点 , 越 可 能 是 异常 值 点 , 但 要 给 Cook 统 
计量 一 个 用 以 判定 异常 值 点 的 临界 值 是 很 困难 的 , 在 应 用 上 要 视 具体 问题 的 实际 
情况 而 定 . 

4. COVRATIO 准则 


利用 全 部 样本 回归 系数 估计 值 的 协 方差 阵 和 去 掉 第 i 个 样本 回归 系数 估计 
值 的 协 方差 阵 分 别 为 


Var(OD) =0? CX , Var (Bo)) 一 a? (Xe 


其 中 Xo 是 X 剔除 第 i 行 得 到 的 矩阵 . 分 别 用 6 和 di) 蔡 代 上 式 中 的 o. 为 了 
比较 其 对 应 的 回归 系数 的 精度 ， 考 虑 其 协 方差 的 比 
det ( Me (全 ] 


ATI RO Re 
COVRATIO dot (97 (XTX)- T (Gor 1 he = ,4 ,nN 


(6.44) 
如 果 有 一 个 样本 所 对 应 的 COVRATIO 值 离开 1 越 远 ， 则 越 认 为 那个 样本 影响 
越 大 . 
R 软件 给 出 了 计算 COVRATIO 值 的 计算 函数 (covratio0) ,其 使 用 格式 为 





其 中 model 是 回归 模型 . 


5. 小 结 
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上 面 介 绍 了 四 种 分 析 强 影响 点 (异常 值 点 ) 的 方法 ， 每 种 方法 找到 的 点 是 否 
是 强 影 响 点 还 需要 根据 具体 情况 进行 分 析 . 这 里 为 了 方便 计算 ,将 各 种 方法 编写 
成 一 个 函数 . 
编写 回归 诊断 函数 一 Reg_Diag().， 在 给 定 回 归 模 型 后 ， 计 算 回 归 模 型 的 普 
通 残 差 、 标 准 化 (内 学 生化 ) 残 差 、 外 学 生化 残 差 、 帽 子 和 矩阵 对 角 线 上 的 元 素 、 
DEFFITS 统计 量 、 Cook 距离 和 COVRATIO 统计 量 ， 并 根据 各 种 指标 的 特征 ， 
对 可 能 是 强 影响 点 的 样本 给 予 标 记 ， 便 于 对 这 些 点 进行 分 析 研 究 . 
下 面 是 相应 的 R 程序 (程序 名 : ”Reg_Diag.R) 
Reg_Diag<-function(fm)T{ 
n<-nrow(fm$model); df<-fm$df.residual 
p<-n-df-1; s<-rep(" ", n); 
res<-residuals(fm); si<-s; si[abs(res)==max(abs (res))]<-"*" 
sta<-rstandard(fm); s2<-s; s2[abs(sta)>2] <-"*" 
stu<-rstudent (fm); s3<-s; s3[abs(sta)>2] <-"*" 
h<-hatvalues (fm); s4<-s; s4[h>2*(p+1)/n]<-"*" 
d<-dffits(fm); s5<-s; s5[abs(d)>2*sqrt((p+1)/n)]<-"*" 
c<-cooks.distance(fm); s6<-s; s6[c==max(c)]<-—"*" 
co<-covratio(fm); abs_co<-abs (co-1) 
s7<-s; s7[abs_co==max(abs_co)]<-—"*" 
data.frame(residual=res, si, standard=sta, s2, 
student=stu, s3, hat_matrix=h, s4, 
DFFITS=d, s5,cooks_distance=c, s6, 
COVRATI0=co,，s7) 


程序 的 输入 值 后 是 由 醚 久 函 数 得 到 的 对 象 ， 程 序 的 输出 值 是 数据 框 ， 列 
出 残 差 、 标 准 差 、 学 生化 残 差 、 帽 子 和 矩阵 对 角 元 素 、 DFFITS 值 、 Cook 距离 和 
COVRATIO 值 ， 并 对 有 可 能 是 异常 值 的 样本 作 标 记 . 

在 程序 中 ， 对 最 大 残 差 绝对 值 的 样本 做 标记 ; 对 标准 化 残 差 和 外 学 生化 残 差 
绝对 值 大 于 2 的 样本 作 标 记 ; 对 于 ja > 2(p 十 1)/n 的 样本 作 标记 ; 对 |DFFITS|; > 
2V(p 十 1)/n 的 样本 作 标记 ; 对 最 大 的 Cooks 距离 的 样本 作 标记 ; 对 距 1 最 远 的 
COVRATIO 统计 量 的 样本 作 标 记 . 
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例 6.17 智力 测试 数据 
表 6.9 是 教育 学 家 测试 的 21 个 儿童 的 记录 ， 其 中 XX 是 儿童 的 年 龄 (以 月 为 
单位 ) 了 表示 菜 种 智力 指标 ， 通 过 这 些 数 据 ， 我 们 要 建立 智力 随 年 龄 变化 的 关 


表 6.9: 儿童 智力 测试 数据 





X Y 
11 102 
10 100 
12 105 
42 57 
17 121 
11 86 
10 100 


解 : 输入 数据 (数据 框 ), 调用 函数 lm() 进行 求解 (程序 名 : ”exam0617.R). 
intellect<-data.frame( 
x=c(15, 26, 10, 9, 15, 20, 18, 11, 8，20，7， 
9, 10, 11, 11, 10, 12, 42, 17, 11, 10),， 
y=c(95, 71, 83, 91, 102, 87，93，100，104，94，113， 
96，83，84，102，100，105，57，121， 86，100) 
) 
lm.sol<-lm(y“x, data=intellect) 


summary (lm.so1) 


其 计算 结果 如 下 
Call: 


lm(formula = y ~ x, data = intellect) 


Residuals: 


Min 1Q Median 3Q Max 
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-15.604 -8.731 1.396 4.523 30.285 
Coefficients: 


Estimate Std. Error t value Pr(>|t|) 
(Intercept) 109.8738 5.0678 21.681 7.31ie-15 *** 
xX -1.1270 0.3102 -3.633 0.00177 ** 


Signif. codes: 0 ’***’ O.001 ’**’ O0.01 ’*’” 0.05 ”.”0.1 ，” ”1 


Residual standard error: 11.02 on 19 degrees of freedom 
Multiple R-Squared: 0.41, Adjusted R-squared: 0.3789 
13.2 on 1 and 19 DF, p-value: 0.001769 


模型 通过 了 检验 和 下 检验， 因此， 回归 方程 为 


入 


Y = 109.8738 — 1.1270X. 


F-statistic: 





下 面 作 回 归 诊 断 ， 调用 回归 诊断 函数 Reg_Diag() 
> Source("Reg_Diag.R"); Reg_Diag(lm.sol) 
student s3 hat_matrix s4 


residual si standard s2 


1 2.0309931 0.18883222 0.18396849 0.04792248 
2 -9.5721288 -0.94440639 -0.94158335 0.15451323 
3 -15.6039514 -1.46226437 -1.51081192 0.06281578 
4 -8.7309404 -0.82158155 -0.81426336 0.07054521 
5 9.0309931 0.83965939 0.83286292 0.04792248 
6 -0.3340623 -0.03147039 -0.03063183 0.07261896 
7 3.4119599 0.31891861 0.31124676 0.05798959 
8 2.5230375 0.23566531 0.22971575 0.05666993 
9 3.1420707 0.29716139 0.28991014 0.07985823 
10 6.6659377 0.62796572 0.61766026 0.07261896 
11 11.0150818 1.04797524 1.05084716 0.09075485 
12 -3.7309404 -0.35108151 -0.34283148 0.07054521 
13 -15.6039514 -1.46226437 -1.51081192 0.06281578 
14 -13.4769625 -1.25882099 -1.27977575 0.05666993 


15 
16 
17 
18 
19 
20 
21 


‘OO OO a OW DD- 


DO 
OO OO 0 OO 0 小 WW LD ~ OO 


.5230375 


1.3960486 


30 . 
三 二 二 


.6500264 
.5403062 
2849710 
4769625 
.3960486 


DFFITS 


.041274036 
.402520687 
.391140045 
.224328534 
.186855984 
.008571736 
.077223953 
.056303487 
.085407473 
.172840518 
.331996854 
.094449643 
.391140045 
.313673908 


0.101264129 
0.032981383 
0.187166128 


=0;. 
0. 


.155778731 
.853737107 


263846244 
032981383 


水 
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0.42247610 
0.13082533 
0.80601240 
-0.85153932 
2.82336807 
-1.07201020 
0.13082533 


水 


0.41315320 
0.12739342 
0.79828114 
-0.84511086 
3.60697972 
-1.07648108 
0.12739342 


O O O OO OO oO 吕 


s5 cooks_distance s6 COVRATIO s7 


8. 
.149796e-02 
.165814e-02 
.561596e-02 
.774366e-02 
.877627e-05 
.130575e-03 
.668209e-03 
.831949e-03 
.543952e-02 
.481014e-02 
.677623e-03 
.165814e-02 
.759781e-02 
.361216e-03 
.735845e-04 
.785650e-02 
.781120e-01 
.232883e-01 
.451889e-02 
.735845e-04 


OP 性 nn ~ oo 


974064e-04 


上 上 有 由 上 由 划 上 上 上 上 上 上 上 上 上 口上 片 情 


.1658918 
.1969990 
.9363474 
.1151027 
.0850411 
.2013200 
.1701576 
.1742373 
.1996682 
.1520913 
.0878396 
.1832616 
.9363474 
.9923313 
.1590453 
.1867369 
.0964388 
.9586827 
.3964316 
.0425728 
.1867369 


.05666993 
.06281578 
.05210768 
.65160998 
.05305030 
.05666993 
.06281578 
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从 上 述 结果 来 看 ， 第 19 号 样本 点 残 差 达到 最 大 ， 且 标准 化 残 差 和 外 学 生化 
残 差 的 绝对 值 超过 2, DFFITS 统计 量 超过 规定 指标 ; 第 18 号 样本 点 的 hg,18， 
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DFFITS 统计 量 和 COVRATIO 统计 量 超 过 规定 指标 ， 并 且 对 应 的 Cook 统计 量 
达到 最 大 . 因此， 这 些 结果 可 以 分 析出 ， 第 19 号 样本 点 对 响应 变量 影响 较 大 ， 
第 18 号 样本 点 对 自 变 量 的 影响 较 大 . 

为 了 能 够 说 明 问题 ， 我 们 从 残 差 图 和 回归 散 点 来 作 进一步 的 说 明 . 为 了 便于 
分 析 ， 将 四 幅 画 在 一 张 图 上 .， 画 出 图 形 的 R 命令 如 下 ， 得 到 的 图 形 如 图 6.11 所 
不 . 





Im(formula =y ~ x, data = intellect) 








Residuals vs Fitted Scale-Location plot 
3 Ee 
pe 
© 避 
w ~ 全 
ee hs OO 
3 © 再 一 
号 AN 
证 9 EE Le 
oS 
5 
(op) 
De OO 
oY S 
70 80 90 100 70 80 90 100 
Fitted values Fitted values 
Cook's distance plot 
CO 
0 oS 
OO 
和 
vo 
加 + 
人 OO 
0 
i 
3 qq 
CO © 
OO 
S 
5 10 15 20 10 20 30 40 
Obs. number x 


图 6.11: 智力 测试 数据 的 残 差 图 和 回归 图 


opar <- par(mfrow = c(2, 2), oma = c(0，0，1.1，0)， 
mar = c(4.1, 4.1, 2.1, 1.1)) 
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plot(lm.sol, 1); plot(lm.sol, 3); plot(lm.sol, 4) 
attach(intellect) 
plot (x, y); X<-x[18:19]; Y<-y[18:19] 
text(X, Y, labels=18:19, adj=1.2); abline(lm.sol) 
par (opar) 
在 上 述 程序 中 , 使 用 了 par() 函数 ,该 函数 图 形 参 数 设置 函数 ， 其 具体 的 使 
用 方法 请 见 在 线 帮 助 . 
图 6.11 的 第 一 张 图 是 残 差 散 点 图 ， 从 图 形 看 出 ,第 19 号 样本 点 明显 远离 其 
他 的 样本 点 . 图 6.11 的 第 二 张 图 是 标准 化 残 差 绝对 值 的 开 方 的 残 差 图 ， 第 19 号 
样本 点 标准 化 残 差 的 开 方 大 于 1.5, 说 明 第 19 号 样 杰 点 在 95% 的 范围 以 外 . 图 
6.11 的 第 三 张 图 表示 的 是 Cook 距离 。 这 里 是 第 18 号 样本 点 的 值 最 大 ， 因 此 ， 
第 18 号 样本 点 可 能 是 强 影响 点 (异常 值 点 ). 为 了 显示 分 析 的 结果 ， 图 6.11 的 第 
四 张 图 给 出 了 回归 直线 和 样本 点 的 散 点 图 ， 第 18 号 样本 点 明显 偏 右 , 第 19 号 
样本 点 明显 偏 上 . 
对 于 多 元 回归 模型 ， 虽然 我 们 无 法 画 出 回归 方程 与 数据 的 的 图 形 , 但 通过 回 
归 诊 断 ， 我们 还 是 能 够 分 析出 数据 的 问题 所 在 , 例如， 对 于 智力 测试 数据 第 18 
号 样本 的 年 龄 是 否 有 问题 ， 而 第 19 号 样本 的 测试 结果 是 否 有 问题 ， 这 些 需 要 作 
进一步 的 研究 . 
在 R 软件 中 ， 函 数 iflaeacesameasuresGO 可 以 作 回归 诊断 的 总 括 ， 它 的 
使 用 格式 为 
其 中 model 是 由 lm 或 glm 构成 的 对 象 . 其 返回 值 是 一 个 列表 ， 列 表 中 包括 DEF- 
FITS 统计 量 ， COVRATIO 统计 量 ， Cooks 距离 等 . 




















6.5.5 ”多重 共 线 性 





1. 什么 是 多 重 共 线 性 
如 果 存 在 茶 些 常数 co, cl 和 c2, 使 得 线性 等 式 
Cl1AX1 十 Co Xo 二 C0 (6.45) 
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对 于 数据 中 所 有 数据 中 的 样本 都 成 立 , 则 两 个 自 变 量 Xl 和 X 为 精确 共 线 性 的 ， 
在 实际 中 ， 精 确 共 线性 是 偶然 发 生 的 ， 因 此 ， 如 果 等 式 (6. 和 43) 近似 地 对 测量 


数据 成 立 ， 则 一 个 常用 但 不 是 完全 合适 的 Xi 与 Xs 间 的 共 线 性 
程度 的 度量 ， 是 它 人 PR 精确 共 线性 对 应 于 73, = 1; 非 共 


线性 对 应 于 7r? = 0. 当 7 越 接 近 于 1, 近似 共 线 性 越 强 . 通常 ， 我 们 去 掉 形容 
词 “ 近 似 ", 当 7% 较 大 时 ， 我 们 说 Xi 和 Xs 是 共 线 性 的 . 
对 于 p(> 2) 个 自 变 量 ， 如 果 存 在 常数 co, c1,……, cy, 使 得 


C1AX1 十 Co2X2 汗 = 5C Ap 一 CO (6.46) 
2. 多 重 共 线性 的 发 现 


将 z0),T6),… ,Xp) 是 自 变 量 Xi XX2,… ,Xj 经 过 中 心 化 和 标准 化 得 到 的 向 
量 5 记 和 = (zaozo… zao) 设 入 为 XTX 的 一 个 特征 值 ，y 为 对 应 的 特征 
向 量 ， 其 长 度 为 1, 即 72p=1. 若 入 六 0, 则 


X7Xo = Xo As 0. 
用 yp 左 乘 上 式 ， 得 到 


pKX Xp= Np p=AND, 


所 以 有 
Xop ~ 0， 
即 
plz0d) 十 pazo) 十 :十 VpZ) TO, (6.47) 
其 中 p = (p18p2,…, pp)”. 式 (6.47) 表明 , 向 量 Za, Zoo)， p) 之 间 有 近似 的 


线性 关系 ， 也 是 说 ， 对 于 自 变 量 Xi1, 从 2， Xy, 存在 全 C0, C1 “, Cp) 使 得 式 (6.46) 
近似 成 立 ， 即 自 变 量 之 间 存 在 多 重 共 线 性 . 
度量 多 重 共 线性 严重 程度 的 一 个 重要 指标 是 方 矩 XiX 的 条 件数 ， 即 


i(XTX) = ||X7XI XTX) 1= 3 生计 


“关于 数据 中 心 化 与 标准 化 的 方法 将 在 8.2.1 节 作 详 细 介绍 
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几 Mnin(XTX) 表示 方 矩 XT y 、 ,特征 值 . 





在 R 软件 中 ， 函 数 区 apBa( 计算 矩阵 的 条 件数 ， 其 使 用 方法 为 
kappa(z, exact = FALSE, ...) 
其 中 z 是 窍 阵 ， exact 是 逻辑 变量 ， 当 exact=TRUE 时 ， 精 确 计 算 条 件数 ， 否 则 
近似 计算 条 件数 . 
例 6.18 考虑 一 个 有 六 个 回归 自 变 量 的 线性 回归 问题 ,原始 数据 列 在 表 6.10 中 . 
这 里 共有 12 组 数据 ， 除 第 一 组 外 ， 自 变量 XX1, XX2,…,X6 的 其 余 11 组 数据 满 
表 6.10: 原始 数据 





序号 Y Xl XX， X; Xa Xs Xs6 
1 10.006 8.000 1.000 1.000 ”1.000 0.541 “一 0.099 
2 9.737 8.000 1.000 1.000 ”0.000 0.130 0.070 
3 15.087 8.000 1.000 1.000 ”0.000 2.116 0.115 
4 8.422 0.000 0.000 9.000 1.000 -2.397 0.252 
5 8.625 0.000 0.000 9.000 1.000  —0.046 0.017 
6 16.289 0.000 0.000 9.000 ”1.000 0.365 1.504 
7 5.958 2.000 7.000 0.000 ”1.000 1.996 ”一 0.865 
8 9.313 2.000 7.000 0.000 ”1.000 0.228 ”一 0.055 
9 12.960 2.000 7.000 0.000 ”1.000 1.380 0.502 
10 5.541 0.000 0.000 0.000 10.000 —0.798  —0.399 
11 8.756 0.000 0.000 0.000 10.000 0.257 0.101 
12 | 10.937 0.000 0.000 0.000 10.000 0.440 0.432 
足 线性 关系 


be oe el) 
试用 求 矩 阵 条 件数 的 方法 ， 分 析出 自 变 量 间 存在 多 重 共 线性 ， 
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解 : 用 数据 框 的 方法 输入 数据 ， 由 自 变量 X1, X2,.…,X6 中 心 化 和 标准 化 得 
到 的 矩阵 X7X 本 质 上 就 由 这 些 自 变 量 生成 的 相关 矩阵， 再 用 kappa() 函数 求 
出 矩阵 X7X 的 条 件数 ， 用 eigen() 函数 求 出 矩阵 XIX 的 最 小 特征 值 和 相应 
的 特征 向 量 . 求解 问题 的 R 程序 如 下 (程序 名 : exam0618 .BR) 
collinear<-data.frame( 
Y=c(10.006, 9.737, 15.087, 8.422, 8.625, 16.289, 
5.958，9.313，12.960，5.541，8.756，10.937) ， 
X1=rep(c(8，0，2，0)，c(3，3，3，3) )， 
X2=rep(c(1, 0, 7, 0), c(3, 3, 3, 3)), 
X3=rep(c(1, 9, 0), c(3, 3, 6)), 
X4=rep(c(1, 0, 1, 10), c(1, 2，6，3))，, 
X5=c(0.541，0.130，2.116，-2.397，-0.046，0.365， 
1.996，0.228，1.38，-0.798，0.257，0.440) ， 
X6=c(-0.099，0.070，0.115，0.252，0.017，1.504， 
-0.865，-0.055，0.502，-0.399，0.101，0.432) 
) 
XX<-cor(collinear[2:7]) 
kappa (XX, exact=TRUE) 


得 到 条 件数 是 < = 2195.908 > 1000, 认为 有 严重 的 多 重 共 线 性 . 

进一步 , 找 出 哪些 变量 是 多 重 共 线性 的 . 计算 矩阵 的 特征 值 和 相应 的 特征 向 
量 

> Gigen(XX) 
得 到 

Mmin 一 0.001106，w = (0.4476, 0.4211, 0.5417, 0.5734, 0.006052, 0.002167)7 
即 
0.4476z0) + 0.4211zo) + 0.5417z(3) + 0.5734z(4) 
十 0.006052z(s) 十 0.0021677(6) 污 0. 

由 于 x(s), Z(6) 前 的 系数 近似 为 0, 因此 ， 有 


0.4476zd) + 0.4211z(2) + 0.5417z(a) + 0.5734z ~ 0， (6.48) 
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所 以 存在 着 Co, Cl, C2, C3, C4 使 得 
c1X1 十 coX» 十 C3X3 十 C4X14 Co. 


这 说 明 变 量 X1, X2, Xs, X4 存在 着 多 重 共 线 性 ， 与 题目 中 给 的 变量 是 相同 的 . 
注意 kappa() 函数 也 可 以 求 线 性 模型 的 条 件数 ， 但 实际 上 是 计算 由 自 变 
量 Xi X2,…, Xp,Y 构成 矩阵 的 条 件数 ， 即 


kappa(lm.model) 一 FA([XI1X :XpY|). 
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广义 线性 模型 (GLM) 是 常见 正 态 线性 模型 的 直接 推广 ， 它 可 以 适用 于 连续 
数据 和 离散 数据 ， 特 别 是 后 者 ， 如 属性 数据 、 计 数 数据 . 这 在 应 用 上 ， 尤 其 是 生 
物 、 医 学 、 经 济 和 社会 数据 的 统计 分 析 上 ， 有 着 重要 意义 . 

广义 线性 模型 首先 由 Nelder 和 Wedderburn (1972) 提出 . 这 些 模 型 要 求 响 
应 变量 只 能 通过 线性 形式 依赖 于 处 变量 ， 从 而 保持 了 线性 自 变 量 的 思想 . 它们 对 
线性 模型 进行 了 两 个 方面 的 推广 : 通过 设 定 一 个 连接 函数 ， 将 响应 变量 的 期 望 与 
线性 目 变 量 相 联 系 ， 以 及 对 误差 的 分 布 给 出 一 个 误差 函数 . 这 些 推广 允许 许多 线 
性 模型 的 方法 能 被 用 于 一 般 的 问题 . 在 线性 回归 中 , 我 们 的 目标 是 将 响应 变量 y; 
作为 了 个 目 变 量 zi xz,… ,zpi, 1 二 12 7 的 函数 建立 模型 . 

对 于 广义 线性 模型 应 有 以 下 三 个 概念 ， 第 一 是 线性 自 变 量 ， 它 表明 第 i 个 
响应 变量 的 期 望 值 B(y;) 只 是 能 过 线性 自 变量 97z; 而 依赖 于 xi, 其 中 如 通常 一 
样 ， 8 是 未 知 参数 的 (p 十 1) x 1 癌 量 ， 可 能 包含 截 距 . 第 二 是 连接 函数 ， 它 说 
明 线 性 自 变量 和 忆 (y;) 的 关系 ， 给 出 了 线性 模型 的 推广 . 第 三 是 误差 函数 ， 它 说 
明 广 义 线性 模型 的 最 后 一 部 分 随机 成 份 . 我 们 保留 样本 为 相互 独立 的 假设 , 但 去 
掉 可 加 和 正 态 误差 的 假设 .可 以 从 指数 型 分 布 族 中 作 选 一 个 作为 误差 本 数 . 

表 6.11 给 出 了 广义 线性 模型 中 常见 的 连接 函数 和 误差 函数 ， 例如 ， 对 于 正 
态 线性 模型 ， 假 设 y; 是 正 态 分 布 ， 均 值 为 zz 6, 未 知 方差 o*. 如 果 我 们 假设 y; 
是 Poisson 随机 变量 ， 均 值 为 exp(z2 9), 我 们 得 到 Poisson 回归 模型 . 








6.6.1 与 广义 线性 模型 有 关 的 R 函数 
R 软件 提供 了 拟 合计 算 广义 线性 模型 的 函数 天 m( 站 其 命令 格式 如 下 
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典型 误差 函数 
zB = E(y) 正 态 分 布 
ZL = 1nE(y) 一 exp(Z Poisson 分 布 
z76 = LogitB(y) 去 二 项 分 布 


1+exp(Z DO) 
Gamma 分 布 


其 中 formula 是 拟 合 公 式 ， 这 里 的 意义 与 线性 模型 相同 ， family 是 分 布 族 ， 
即 前 面 讲 到 的 广义 线性 模型 的 种 类 ， 如 正 态 分 布 、 Poisson 分 布 、 二 项 分 布 等 . 
data 是 数据 框 ， 这 里 的 意义 与 线性 模型 相同 . 

对 于 每 个 分 布 族 (family), 提供 了 相应 的 连接 函数 ， 如 表 6.12 所 示 . 


表 6.12: 族 与 相关 的 连接 函数 


分 布 族 (family) 连接 函数 


binomial logit, probit, cloglog 

gaussian identity 

Gamma identity, inverse, log 
inverse.gaussian 1/mu“2 

poisson identity, log, sqdrt 

quasi logit, probit, cloglog, identity, 





inverse, log, i/mu“2, sgrt 


有 了 这 些 分 布 族 和 连接 函数 ， 我 们 就 可 完成 相应 的 广义 线性 模型 的 似 合 问 
题 ， 下 面 就 各 种 不 同 的 分 布 族 进行 分 析 . 





6.6.2” 正 态 分 布 族 
正 态 分 布 族 的 使 用 方法 是 
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fm <- glm(formula, family = gaussian(link = identity), 
data = data.frame) 
式 中 link = identity 可 以 不 写 ， 因 为 正 态 分 布 族 的 连接 函数 缺 省 值 是 恒 等 
(identity). 事实 上 ,整个 参数 fanily = gaussian 也 可 以 不 写 , 因为 分 布 族 的 缺 
省 值 就 是 正 态 分 布 . 
从 表 6.11 可 以 看 出 ， 正 态 分 布 族 的 广义 线性 模型 实际 上 与 线性 模型 是 相同 

的 ,也 就 是 说 ， 

fm <- glm(formula, family = gaussian, data = data.frame) 
与 线性 模型 

fm <- lm(formula, data = data.frame) 


有 完全 相同 的 计算 结果 ， 但 效率 确 低 得 多 . 








6.6.3 ”二 项 分 布 族 


在 二 项 分 布 族 中 ， logistic 回归 模型 是 最 重要 的 模型 . 在 某 些 回归 问题 中 ， 
响应 变量 是 分 类 的 ， 经 常 是 或 者 成 功 ， 或 者 失败 . 对 于 这 些 问题 ， 正 态 线性 模型 
显然 是 不 合适 的 ， 因 为 正 态 误差 不 对 应 一 个 0-1 响应 . 在 这 种 情况 下 ， 可 用 一 种 
重要 的 方法 称 为 logistic 回归 . 

对 于 响应 变量 Y 有 p 个 自 变量 (或 称 为 解释 变量 ), 记 为 Xi1, Xs,…，X,. 在 
p 个 自 变量 的 作用 下 出 现成 功 的 条 件 概率 记 为 P= P{Y = 1|X1, Xs,…, XX,}, 屠 
么 logistic 回归 模型 为 








(6.49) 





其 中 称 Go 为 常数 项 或 截 距 ， 称 8162,…, Bp 为 logistic 模型 回归 系数 . 
从 公式 (6.49) 可 以 看 出 ， logistic 回归 模型 是 一 个 非 线 性 回归 模型 ， 自 变 
量 Xj(j = 1,2,…,p) 可 以 是 连续 变量 ， 也 可 以 是 分 类 变量 ， 或 哑 变 量 (dummy 
variable) 对 自 变量 X; 任意 取 值 ， 外 十 BiXi 十 BoXz 十 … 十 BpXyp 在 一 00 到 十 oo 
变化 时 ， 公 式 (6.49) 的 比值 总 在 0 到 1 之 间 变 化 ， 这 正 是 概率 P 的 取 值 区 间 . 
对 公式 (6.49) 作 logit 变换 ， logistic 回归 模型 可 以 变 成 下 列 线性 形式 : 





P 
logit(P) = ln ( 


1B) = Bt Xt BX tt BN (6.50) 
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从 式 (6.50) 可 以 看 出 , 我 们 能 够 使 用 线性 回归 模型 对 参数 进行 佑 计 . 这 就 是 
logistic 回归 模型 属于 广义 线性 模型 的 原因 . 
用 R 软件 计算 logistic 回归 模型 的 公式 为 





式 中 link = logit 中 以 不 写 ， 因 为 1ogit 是 二 项 分 布 族 连 接 函 数 是 省 缺 状态 . 
在 用 glm() 函数 作 logistic 回归 模型 时 ， 对 于 公式 formula 有 两 种 输入 方 
法 ， 一 种 方法 是 输入 成 功 和 失败 的 次 数 ， 另 一 种 象 线性 模型 通常 数据 的 输入 方 
法 ， 这 里 用 两 个 例子 说 明 其 数据 的 输入 和 glm() 函数 的 使 用 方法 . 
例 6.19 R. Norell 实验 
为 研究 高 压 电 线 对 牲畜 的 影响 ， 尽 . Norell 研究 小 的 电流 对 农场 动物 的 影 
响 . 他 在 实验 中 ， 选 择 了 7 头 ， 6 种 电击 强度 ， 01293,45 毫 安 . 每 头 牛 被 电 
击 30 下 ， 每 种 强度 5 下 ， 按 随机 的 次 序 进行 ， 然后 重复 整个 实验 ， 每 头 牛 总 共 
被 电击 60 下 . 对 每 次 电击 ， 响 应 变量 一 嘴巴 运动 ， 或 者 出 现 ， 或 者 未 出 现 . 表 
6.13 中 的 数据 给 出 每 种 电击 强度 70 次 试验 中 响应 的 总 次 数 .， 试 分 析 电 击 对 和 牛 


表 6.13: 7 头 牛 对 6 种 不 同 强度 的 非常 小 的 电击 的 响应 


电流 (富安 ) 试验 次 数 响应 次 数 响应 的 比例 
0 


0.000 

0.129 

0.300 

0.671 

0.857 

0.900 
的 影响 . 


解 : 用 数据 框 形式 输入 数据 ， 再 构造 矩阵 ， 一 列 是 成 功 (响应 ) 的 次 数 ， 另 
一 列 是 失败 (不 响应 ) 的 次 数 ， 然 后 再 作 logistic 回归 . 其 程序 如 下 (程序 名 : 
exam0619 .BR) 





Ol 此 0 


norell<-data.frame(l 
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x=0:5, n=rep(70,6), success=c(0,9,21,47,60,63) 
) 


norell$Ymat<-cbind(norell$success, norell$n-norell$success) 





glm.sol<-glm(Ymat“x, family=binomial, data=norell) 


summary (glm.so1) 


其 计算 结果 为 
Call: 


glm(formula = Ymat ~ x, family = binomial, data = norell) 


Deviance Residuals: 
1 2 3 4 5 6 
-2.2507 0.3892 -0.1466 1.1080 0.3234 -1.6679 


Coefficients: 


Estimate Std. Error z value Pr(>|z|) 


(Intercept) -3.3010 0.3238 -10.20 <2e-16 *** 
x 1.2459 0.1119 11.13 © <2e-16 *** 
Signif. codes: 0 ’?***’ 0.001 ’**’ 0.01 ?*’” 0.05 ”.” 0.1) 


(Dispersion parameter for binomial family taken to be 1) 


Null deviance: 250.4866 on 5 degrees of freedom 
Residual deviance: 9.3526 on 4 degrees of freedom 


AIC: 34.093 


Number of Fisher Scoring iterations: 4 


即 po = 一 3.3010, 61 = 1.2459. 并 且 回 归 方程 通过 了 检验 ， 因 此 ， 





exp(—3.3010 + 1.2459X) 
1+ exp(—3.3010 + 1.2459X) 


其 中 X 是 电流 强度 (单位 : 时 安 )， 


了 7 


1 
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回归 模型 为 
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与 线性 回归 模型 相同 ， 在 得 到 回归 模型 后 ， 可 以 作 预 测 ， 例 如 ， 当 电流 强度 
为 3.5 党 安 时 ， 有 响应 的 牛 的 概率 为 多 少 ? 
> pre<-predict(glm.sol, data.frame(x=3.5)) 
> p<-exp(pre)/(itexp(pre)); p 
[1] 0.742642 
即 74.26%. 
可 以 作 控 制 ， 如 有 50% 的 牛 有 响应 ， 其 电流 强度 为 多 少 ? 当 P = 0.5 时 ， 
mi 二 0, 所 以 ，X = —Po/B1. 
> X<- - glm.sol$coefficients[[1]]/glm.sol$coefficients[[2]] 
> 又 
2.649439 
即 2.65 坚 安 的 电流 强度 ， 可 以 使 50% 的 牛 有 响应 . 
最 后 画 出 响应 的 比例 与 logistic 回归 曲线 画 ，R 软件 的 绘图 命令 如 下 ， 得 到 
的 图 形 由 图 6.12 所 示 . 
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图 6.12: 响应 比例 关于 强度 的 拟人 logistic 回归 曲线 


d<-seq(0, 5, len=100) 


6.6 广义 线性 回归 模型 369 


pre<-predict(glm.sol, data.frame(x = d)) 
p<-exp(pre)/(1+texp (pre)) 
norell$y<-norell$success/norell$n 


plot (norell$x, norell$y); lines(d, p) 


在 程序 中 ， 四 是 给 出 曲线 横 坐 标的 点 ， 吓 @ 是 计算 预测 值 ， 因 是 相应 的 预测 概 
率 ， 用 B16 孙 数 和 ne 本 给 出 散 点 图 和 对 应 的 预测 曲线 . 
例 6.20 50 位 急性 淋巴 细胞 性 白血病 病人 ， 在 入 院 治 疗 时 取得 了 外 辕 血 中 的 细 
胞 数 Xi( 千 个 /mms3); 淋巴 结 浸润 等 级 Xs (分 为 0 1 2 3 级 ); 出 院 后 有 无 巩固 
治疗 3(“1” 表 示 有 巩固 治疗 ，“0” 表 示 无 巩固 治疗 ). 通过 随访 取得 病人 的 生存 
时 间 ， 并 以 变量 站 二 0 表示 生存 时 间 在 1 年 以 内 ， 站 二 1 表示 生存 时 间 在 1 年 
或 了 年 以 上 .关于 Xi,X2,X3a3 和 站 的 观测 数据 ， 如 表 6.14 所 示 . 试用 Logistic 
回归 模型 分 析 病 人 生存 时 间 长 短 的 概率 与 X1,Xo,X3 的 关系. 
解 : 输入 数据 ， 用 glm() 函数 计算 (程序 名 : ”exam0620.R). 
life<-data.frame( 
X1=c(2.5, 173, 119, 10, 502, 4, 14.4, 2, 40,6.6, 
21.4, 2.8, 2.5, 6, 3.5, 62.2, 10.8, 21.6, 2,，3.4, 
5.1, 2.4, 1.7, 1.1, 12.8, 1.2, 3.5, 39.7, 62.4, 2.4, 
34.7,，28.4, 0.9, 30.6, 5.8, 6.1, 2.7, 4.7,，128,，35,， 
2, 8.5, 2, 2, 4.3, 244.8, 4, 5.1, 32, 1.4),， 


X2=rep(c(0, 2, 0, 2, 0, 2, 0, 2, 0, 2, 0, 2, 0, 2,0，2, 
0, 2,0,，2, 0，2，0)， 
c(1, 4, 2, 2, 1, 1, 8, 1, 5, 1, 5, 1, 1, 1, 2, 1, 
1, 1, 3, 1, 2, 1,，4))， 
X3=rep(c(0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1,0,，1), 
c(6, 1, 3, 1, 3, 1, 1, 5, 1, 3, 7, 1, 1, 3, 1, 1, 2, 9))， 
Y=rep(c(0, 1, 0, 1), c(15, 10, 15, 10)) 


) 

glm.sol<-glm(Y Xi1+X2+X3, family=binomial, data=l1ife) 
summary (glm.so1) 

计算 结果 如 下 : 

Call: 
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表 6.14: 50 位 急性 淋巴 细胞 性 白血病 病人 生存 数据 


A X! XxX, 
1 0 0 1.2 2 
2 0 0 3.5 0 
3 0 0 39.7 0 
4 0 0 62.4 0 
5 0 0 2.4 0 
6 0 0 34.7 0 
7 1 0 28.4 2 
8 0 0 0.9 0 
9 0 0 30.6 2 
10 0 0 5.8 0 
11 1 0 6.1 0 
12 0 0 2.7 2 
13 0 0 4.7 0 
14 0 0 128.0 2 
15 1 0 35.0 0 
16 0 1 2.0 0 
17 1 1 8.5 0 
18 1 1 2.0 2 
19 1 1 2.0 0 
20 1 1 4.3 0 
21 1 1 244.8 2 
22 0 1 4.0 0 
23 1 1 5.1 0 
24 1 1 32.0 0 
25 1 1 1.4 0 





全 ER 
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glm(formula = Y ~ Xi1 + X2 
Deviance Residuals: 
Min 1Q Median 


-1.6960 -0.5842 -0.2829 


Coefficients: 


Estimate Std. 
(Intercept) -1.696538 0. 
.005683 0.409 0.682308 


X1 0.002326 0 
X2 -0.792177 0. 
X3 2.830373 0 


Signif. codes: 0 ’***’ 0. 


(Dispersion parameter for 


Null deviance: 67.301 
Residual deviance: 46.567 
AIC: 54.567 


+ X3, family = binomial, data = life) 


3Q Max 
0.7436 1.9292 


Error Z value Pr(>|z|) 


658635 -2.576 0.010000 ** 


487262 -1.626 0.103998 


.793406 3.567 0.000361 *** 


O001 ?**’” 0O.01 ?#” 0.05 ”.”0.1 ”?”1 


binomial family taken to be 1) 


on 49 degrees of freedom 


on 46 degrees of freedom 


Number of Fisher Scoring iterations: 5 


即 回 归 模 型 为 


exp(—1.696538 十 0.002326X1 — 0.792177X2 + 2.830373X;) 
1+exp(1.696538 + 0.002326X1 — 0.792177X, + 2.830373X3) 
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用 上 述 回 归 模 型 作 观测 ， 关 一 个 病人 的 前 两 项 的 指标 观测 值 为 zi = 5, zx2 = 
2, 各 无 巩固 治疗 (zs = 0), 则 1 年 以 上 的 存活 概率 
> pre<-predict(glm.sol, data.frame(X1=5,X2=2,X3=0)) 


> p<-exp(pre)/(1+exp(pPre)); p 


[1] 0.03664087 


为 3.66%. 在 进行 了 巩固 性 治疗 (zs = 1), 则 1 年 以 上 的 存活 概率 
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> pre<-predict(glm.sol, data.frame(X1=5,X2=2,X3=1)) 
> p<-exp(pre)/(1+exp(pre)); p 
[1] 0.3920057 


为 39.20%. 比 没有 巩固 治疗 提高 了 10.699 倍 . 

实际 上 ， 用 上 述 回 归 方 程 作 预 测 还 存在 一 些 问题 ， 这 是 因为 在 得 到 logistic 
回归 模型 时 ,参数 i 没有 通过 检验 ,其 P- 值 为 0.6823. 可 以 类 似 于 线性 模型 ， 
用 sepG) 作 变量 筛选 . 
> glm.new<-step(glm.sol) 


Start: AIC= 54.57 
Y~ Xi1+ X2 + X3 





Df Deviance AIC 
— X1 1 46.718 52.718 
<none> 46.567 54.567 
— X2 1 49.502 55.502 
— X3 1 63.475 69.475 


Step: AIC= 52.72 
Y ~ X2 + X3 


Df Deviance AIC 
<none> 46.718 52.718 
- X2 1 49.690 53.690 
— X3 1 63.504 67.504 


Call: glm(formula = Y ~ X2 + X3, family = binomial, data = life) 
Coefficients: 


(Intercept) X2 X3 
-1.642 -0.707 2.784 
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Degrees of Freedom: 49 Total (i.e. Null); 47 Residual 
Null Deviance: 67.3 
Residual Deviance: 46.72 AIC: 52.72 
再 用 summary() 函数 显示 模型 的 细节 . 
> summary (glm.new) 
Call: 
glm(formula = Y ~ X2 + X3, family = binomial, data = life) 


Deviance Residuals: 
Min 1Q Median 3Q Max 
-1.6849 -0.5950 -0.3033 0.7442 1.9073 


Coefficients: 


Estimate Std. Error z value Pr(>|z|) 


(Intercept) -1.6419 0.6381 -2.573 0.010082 +* 

X2 -0.7070 0.4282 -1.651 0.098750 . 

X3 2.7844 0.7797 3.571 0.000355 *** 

Signif. codes: 0 ’***’ O.001 ’**’” O.01 ’*’” 0.05 ”.”0.1 ”?”1 


(Dispersion parameter for binomial family taken to be 1) 


Null deviance: 67.301 on 49 degrees of freedom 
Residual deviance: 46.718 on 47 degrees of freedom 
AIC: 52.718 
从 计算 结果 可 以 看 出 ， 所 有 参数 通过 了 检验 (a = 0.1). 此 时 的 回归 模型 为 
加 exp( 一 1.6419 — 0.7070X, + 2.7844X;) 
~ 1+exp(—1.6419 — 0.7070X; 十 2.7844X3) 
再 作 预 测 分 析 
> pre<-predict(glm.new, data.frame(X2=2,X3=0)) 
> p<-exp(pre)/(itexp(pre)); p 
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[1] 0.04496518 
> pre<-predict(glm.new, data.frame(X2=2,X3=1)) 
> p<-exp(pre)/(itexp(pre)); p 
[1] 0.4325522 
因此 巩固 治疗 比 没有 巩固 治疗 提高 了 9.619 倍 . 
从 上 述 例 子 可 以 看 出 , 对 于 广义 线性 模型 GLM, 同样 可 以 作 变 量 筛选 ， 模 型 
修正 等 工作 . 当然 ， 我 们 同样 可 作 回 归 诊 断 . 
> Source("Reg_Diag.R"); Reg_Diag(glm.sol) 
诊断 的 结果 (详细 结果 略 ) 还 需要 对 第 5 号 、11 号 、20 号 、43 号 、46 号 样本 
作 进 一 步 的 研究 . 
大 家 还 可 以 用 influence.measures () 作 回 归 诊 断 ， 其 格式 如 下 : 
> influence.measures (glm.so1) 


其 诊断 的 结果 是 : 5 号 、 46 号 样本 可 能 有 问题 . 
6.6.4 ”其 他 分 布 族 


对 于 广义 线性 模型 , 除了 上 面 讲 到 的 logistic 回归 模型 外 , 还 有 其 他 的 模型 ， 
如 Poisson 模型 等 ， 这 里 就 不 详细 介绍 了 ， 只 简单 介绍 R 软件 中 ， glm() 关于 
这 些 模 型 的 使 用 方法 . 








1. Poisson 分 布 族 和 拟 Poisson 分 布 族 
Poisson 分 布 族 模 型 和 拟 \Poiss6n 分 布 族 模型 的 使 用 方法 是 


fm <- glm(formula, family = poisson(link = log), 


data = data.frame) 
fm <- glm(formula, family = quasipoisson(link = log), 


data = data.frame) 





其 直观 概念 是 : 
In(E(Y))= Bo + PXit+:.:+ boXy. 
也 就 是 ， 


E(Y) = exp (po 十 PXI 十 .十 DAXp). 


Poisson 分 布 族 模型 和 拟 Poisson 分 布 族 模 型 唯一 的 差别 就 是 ， PoiS6 分 
布 族 模 型 要 求 响应 变量 罚 是 整数 ， 而 拟 Poisson 分 布 族 模型 则 没有 这 一 要 求 . 
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看 一 个 简单 的 例子 ， 
> x <- rnorm(100) 
> y <- rpois(100, exp(1+x)) 


> glm(y “x, family=poisson) 


Call: glm(formula = y ~ x, family = poisson) 


Coefficients: 
(Intercept) 区 
0.997 1.010 


Degrees of Freedom: 99 Total (i.e. Null); 98 Residual 
Null Deviance: 535.7 
Residual Deviance: 106.2 AIC: 366.2 


第 一 句 是 生成 100 个 标准 正 态 分 布 的 随机 数 , 并 赋值 给 变量 x; 第 二 句 是 生成 100 
个 Poisson 的 随机 数 ， 其 中 参数 和 = exp(1 十 xX); 第 四 名 是 作 广义 线性 回归 模型 ， 
其 分 布 族 是 Poisson, 连接 函数 为 Link=log, 因为 它 是 缺 省 值 ， 并 不 需要 写 在 公 
式 中 . 

关于 Poisson 分 布 族 模型 和 拟 Poisson 分 布 族 模型 的 连接 函数 还 有 identity， 


sqrt. 


2. Gamma 分 布 族 
(Gammia 布 族 模 型 的 使 用 方法 是 


fm <- glm(formula, family = gamma(link = inverse), 


data = data.frame) 





其 直观 概念 是 : 


也 就 是 ， 


Bo+ BXi+ 十 DR 
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例如 ， 考 虑 拟 合 非 线性 回归 


01%1 


— 0, 





将 它 写成 男 一 种 形式 人 


Btpr © 
其 中 2 =2/2 XY2 二 一 1/Xi, Pi 二 1/ 和 [2 二 02/01. 假设 我 们 已 有 适当 的 数 
据 结构 ， 我 们 可 以 用 如 下 的 方法 作 非 线性 回归 
nlfit<-glm(y ”xl + x2 - 1, 


family = quasi(link=Gamma, data = data.frame) 


3. quasi 分 布 族 
daa 分 布 族 模型 的 使 用 方法 是 


fm <- glm(formula, 


family = quasi(link = link.fun, variance=var.val), 





data = data.frame) 
其 中 link.fun 表示 连接 函数 , 有 如 下 也 数 : logit, probit, cloglog, identity, 
inverse, log, 1/mu“2, sqrt, 而 var.val 表示 方差 值 ， 有 constant, mu, mu 人 2， 
mu“3 等. 
下 面 是 quasi 分 布 族 模 型 的 简单 例子 ， 有 些 方法 的 计算 结果 与 前 面 介绍 分 布 
族 的 计算 结果 是 相同 的 ， 例 如 ， 
nlfit <- glm(y ”xl + x2 - 1, 
family = quasi(link=inverse, variance=constant), 
data = data.frame) 
与 Gamma 分 布 族 中 介绍 的 例子 是 相同 的 . 
x <- rnorm(100) 
y <- rpois(100, exp(1+x)) 
glm(y “x, family=quasi(var="mu", link="log")) 
与 Poisson 分 布 族 中 介绍 的 例子 是 相同 的 ， 当 然 ， quasi 分 布 族 模 型 还 有 其 他 的 


方式 
glm(y “x, family=quasi(var="mu “2", link="log")) 
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y <- rbinom(100, 1, plogis(x)) 
glm(y “x, family=quasi(var="mu(1-mu)", link="logit"), 
start=c(0,1)) 
除 上 述 分 布 族 外 ,还 有 quasibinomial 分 布 族 、inverse .gaussian 族 等 . 
这 些 分 布 族 需要 大 家 在 使 用 中 加 深 对 它们 的 了 解 ， 这 里 就 不 一 一 介绍 了 . 


6.7 ” 非 线 性 回归 模型 
前 面 各 节 讲 到 的 模型 主要 是 线性 模型 ， 它 具有 如 下 的 形式 
Y =ot+PZiti+ baZs tt Orr Ee, (6.51) 


其 中 Zi 可 以 表示 基本 变量 X1, X2,.…, X 的 任意 函数 . 虽然 式 (6.51) 可 以 表 
示 变 量 之 间 很 广泛 的 关系 (如 广 义 线性 模型) 但 在 许多 实际 情况 下 ， 这 种 形式 的 
模型 是 不 合适 的 . 例如 ， 当 我 们 获得 了 关于 响应 和 自 变量 之 间 的 有 用 信息 ， 而 这 
种 信息 提供 了 真实 模型 的 形式 或 提供 了 模型 必须 满足 某 种 方程 时 ， 套 用 式 (6.51) 
就 不 合适 了 . 一 般 地 ， 当 实际 情况 要 求 用 非 线性 模型 时 ， 就 应 该 尽 可 能 地 拟 合 这 
样 的 模型 ， 而 不 拟 合 可 能 脱离 实际 的 线性 模型 . 











下 面 列举 两 个 非 线 性 模型 的 例子 : 
Y = exp(0 + Ot +e), (6.52) 
至 01 一 02t 01t 
二 pe (e e 和 0] +e. (6.53) 


模型 (6.52) 和 (6.53) 都 是 以 非 线性 的 形式 包含 参数 0 和 92, 在 这 种 意义 
下 ,它们 都 是 非 线 性 模型 ,但 它们 有 本 质 上 的 区 别 . 一 个 可 以 化 成 线性 模型 ， 如 
对 于 模型 (6.52) 两 边 取 对 数 ， 得 到 


InY = 0 + 0 +e, (6.54) 


它 具 有 模型 (6.51) 的 形式 ， ne ee 
沁 请 过 笑 : 的 变换 转 i 、 性 模 姑 

特 模型 (6.53) en 可 和 的 这 样 世 

线性 的 . 虽然 很 多 时 候 可 以 变换 这 种 模型 使 它 容易 拟 合 ， 但 无 论 如 何 变 换 ， 它 仍 
然 是 非 线性 的 . 
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对 内 在 线性 模型 ， 本 节 主 要 介绍 多 项 式 回归 模型 ， 而 对 于 其 他 的 内 在 线性 模 
型 就 不 作 介绍 了 . 本 闻 的 重点 还 是 放 在 内 在 非 线性 模型 上 ,尽管 有 些 例 子 可 能 还 
是 内 在 线性 的 ， 但 我 们 还 是 用 这 些 例子 说 明 如 何 求解 内 在 非 线性 的 模型 , 








6.7.1 ”多项式 回归 模型 


1. 多 项 式 回归 


假定 响应 变量 是 自 变量 的 天 次 多 项 式 ， 即 














Vi 一 bo DTi 韦 Pax? 2 Bere | Ei) 7 一 1, 2, ,1, (6.55) 
其 中 上 ~ N(0,02). 令 
Zil 二 Vi Xi2 = Ds “Zik 二 » ， 


则 多 项 式 回 归 模 型 (6.55) 就 可 化 成 元 线性 回归 





Yi= Bot Pzit Poziz tt Orzig t+ Ei, 1 = 1,2,..,n, (6.56) 


其 中 =s ~ N(0,o7). 

对 于 回归 模型 (6.56) 可 用 前 面 讲 过 的 线性 回归 模型 进行 计算 . 
例 6.21 某 种 合金 钢 中 的 主要 成 分 是 金属 A 与 B, 经 过 试验 和 分 析 ， 发 现 这 两 种 
金属 成 分 之 和 7 与 膨胀 系数 Y 之 间 有 一 定 的 数量 关系 ， 表 6.15 记录 了 一 组 试验 
数据 ， 试 用 多 项 式 回归 来 分 析 x 与 之 间 的 关系 . 


表 6.15: 金属 之 和 与 膨胀 系数 的 关系 数据 
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解 : 先 画 出 数据 的 散 点 图 ， 如 图 6.13 所 示 . 从 图 可 见 ， y 开始 时 随 着 z 的 
增加 而 降低 ， 而 当 x 超过 一 定 值 后 ，y 又 随 x 的 增加 而 上 升 ， 因 而 可 以 假定 y 
与 之 间 是 二 次 多 项 式 回 归 模型 ， 并 假设 各 次 试验 误差 是 独立 同 分 布 的 ， 并 服 





alloy$y 











37 38 39 40 41 42 43 


alloy$x 


图 6.13: 金属 之 和 与 膨胀 系数 的 散 点 图 与 拟 合 曲线 
从 正 态 分 布 N(0,o”). 





i= BotPxit bor? + es i=1,2,..,n. 


用 R 软件 求解 多 项 式 回 归 (程序 名 :exam0621.R) 
> alloy<-data.frame( 
x=c(37.0，37.5，38.0，38.5，39.0，39.5，40.0， 
40.5，41.0，41.5，42.0，42.5，43.0) ， 
y=c(3.40，3.00，3.00，3.27，2.10，1.83，1.53， 
1.70，1.80，1.90，2.35，2.54，2.90) 
) 
> lm.sol<-lm(y“1+x+I (x 2) ,data=alloy) 


> summary (lm.so1) 
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Call: 
lm(formula =y ~ 1+x+ I(x’2), data = alloy) 


Residuals: 
Min 1Q Median 3Q Max 
-0.33322 -0.14222 -0.07922 0.05275 0.84577 


Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) 257.06961 47.00295 5.469 0.000273 *** 


xX -12.62032 2.35377 -5.362 0.000318 +*** 
I(x°2) 0.15600 0.02942 5.303 0.000346 *** 
Signif. codes: 0 ’***’ O.001 ’**’? O0.01 ’*’” 0.05 ”.”0.1 ” ”1 


Residual standard error: 0.329 on 10 degrees of freedom 
Multiple R-Squared: 0.7843, Adjusted R-squared: 0.7412 
F-statistic: 18.18 on 2 and 10 DF, p-value: 0.0004668 


因此 ， 得 到 y 关于 x 的 二 次 回归 方程 : 
$ = 257.06961 — 12.62032z 十 0.15600z2， 


并 且 方 程 通过 工 检 验 和 了 检验 .其 拟 合 曲线 见 图 6.13 所 示 ， 相应 的 绘图 命令 如 
下 : 

> xfit<-seq(37,43,1en=200) 

> yfit<-predict(lm.sol, data.frame (x=xfit)) 

> plot(alloy$x,alloy$y) 

> lines(xfit, yfit) 


2. 正 交 多 项 式 回 归 


从 前 面 的 讨论 可 知 ， 多项式 回 归 本 质 上 并 不 存在 困难 , 但 它 存 在 的 缺点 是 ; 
当 多 项 式 的 次 数 〖 较 大 时 ， 1, x, 2?,…, 2* 接近 线性 相关 .从 i 要 讲 ， 这 
样 会 给 正则 方程 的 求解 带 来 困难 ， 产 i 统计 角度 讲 ,， 由 1, zx， 








381 


6.7 非 线性 回归 模型 





5 采用 下 
多 项 式 回 归 模型 (6.55), 考虑 正 交 多 项 式 模型 
= bot+ Pipi(Ti) + Papa(Ti) + + BPR(Ti) Tei i=1,2,..,n, (6.57) 
其 中 1， ee 7) 是 正 交 的 ， 即 满足 
ey i 
(6.58) 


Ji =0, 7z#¥9=1,2,..…,k. 


关于 正 交 多 项 式 的 计算 公式 这 里 就 不 推导 了 ， 这 里 只 给 出 R 软件 的 计算 正 
交 多 项 函数 B617 的 使 用 方法 ， 其 使 用 格式 为 
poly (x, 1， = NULL) 


其 中 x 是 数值 向量 ，degree 是 正 交 多 项 式 的 阶 数 , 并 且 要 求 degree<length(x). 


.，degree = coefs 


该 函 ed ds es 
> poly(alloy$x, degree = 2) 
1 2 
[1,] -4.447496e-01 0.49168917 
[2,] -3.706247e-01 0.24584459 
[3,] -2.964997e-01 0.04469902 
[4,] -2.223748e-01 -0.11174754 
[5,] -1.482499e-01 -0.22349508 
[6,] -7.412493e-02 -0.29054360 
[7,] -1.645904e-17 -0.31289311 
[8,] 7.412493e-02 -0.29054360 
[9,] 1.482499e-01 -0.22349508 
[10,] 2.223748e-01 -0.11174754 
[11,] 2.964997e-01 0.04469902 
[12,] 3.706247e-01 0.24584459 
[13,] 4.447496e-01 0.49168917 
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其 中 第 一 列 是 p1, 第 二 列 是 p2, 且 满 足 式 (6.58). 进一步 ， 它 们 还 是 单位 向 量 . 
例 6.22 用 正 交 多 项 式 回归 计算 例 6.21 中 的 数据 . 
解 : 
> lm.pol<-lm(y“1it+poly (x,2) ,data=alloy) 
> summary (lm.pol) 
Call: 
lm(formula =y ~ 1 + poly(x, 2), data = alloy) 


Residuals: 
Min 1Q Median 3Q Max 
-0.33322 -0.14222 -0.07922 0.05275 0.84577 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) 2.40923 0.09126 26.400 1.40e-10 *** 
poly(x, 2)1 -0.94435 0.32904 -2.870 0.016669 * 
poly(x, 2)2 1.74505 0.32904 5.303 0.000346 +*** 


Signif. codes: 0 ’***’ O.001 ’**’ O.01 ’*’” 0.05 ”.”0.1 ”?”1 


Residual standard error: 0.329 on 10 degrees of freedom 
Multiple R-Squared: 0.7843, Adjusted R-squared: 0.7412 
F-statistic: 18.18 on 2 and 10 DF, p-value: 0.0004668 


因此 ， 得 到 y 关于 2 的 二 次 回归 方程 : 
= 2.40923 — 0.94435¢p1 + 1.74505¢92. (6.59) 


R 软件 没有 提供 将 {1, p1, yp2} 转化 成 {1, 7x, 2*} 的 函数 ， 但 并 不 影响 在 正 交 
多 项 式 下 作 预 测 分 析 ， 其 函数 仍 是 predict (), 使 用 格式 为 
predict(object, newdata, ...) 
其 中 object 是 由 poly 作 正 交 多 项 式 回归 得 到 的 对 象 ， newdata 是 新 的 要 预测 
的 数据 ， 采 用 数据 框 形式 .例如 ， 要 预测 模型 (6.59) 中 变量 x 在 区 间 [37, 43| 上 
200 个 点 的 值 ， 其 计算 过 程 如 下 : 


6.7 非 线性 回归 模型 383 


> xfit<-seq(37,43,1en=200) 
> yfit<-predict(lm.pol, data.frame (x=xfit)) 


6.7.2 (内 在 ) 非 线 性 回归 模型 


1. 非 线性 最 小 二 乘 与 极 大 似 然 模型 
设 非 线性 回归 模型 具有 如 下 形式 





Y = f(Xi, Xo,:.:, Xp,01,02,:.**, Or) e, (6.60) 


其 中 = ~ N(0,0o2). 
设 (Zi Zi , Tip, Yi), 1 一 1,2,…,n 是 (XXX 了 了) 的 n 次 独立 观 
测 值 ， 则 多 元 线性 模型 (6.60) 可 表示 为 


Li 一 f (Xi, Ti2,* **, Vip, 01, 0 ,05) 十 &i, 1 一 1 2 (6.61) 


其 中 se N(0,o°), 且 独 立 同 分 布 . 
为 方便 起 见 ， 将 式 (6.61) 简写 成 


yi = f(XW,0) 二 si (6.62) 


其 中 XW = (Zi1, Zi2， Ml 2 0 = (01, 0», 2 0)”. 
为 求 参数 9 的 估计 值 ， 求 解 最 小 二 乘 问题 
min QU)=》 (yf(XO,0)) . (6.63) 


i=1 


其 解 6 作为 参数 9 的 估计 值 . 
可 以 证 明 ， 如果。 ~ N(0,o27), 则 9 的 最 小 二 乘 估计 也 是 9 的 极 大 似 然 佑 
计 ， 这 是 由 于 该 问题 的 似 然 函 数 可 写成 


了 (0, 2 = OUR ep (—Q(0)/20°). 


因而 ， 如 果 0? 已 知 ， 关 于 9 极 大 似 然 估计 等 价 于 求解 问题 (6.63). 
2. 非 线性 模型 的 参数 估计 一 nls() 函数 的 使 用 
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关于 参数 9 的 估计 值 9 的 计算 ， 实 质 上 涉及 无 约束 问题 的 求解 问题 ， 此 类 
问题 这 里 就 不 作 介绍 了 ， 其 原因 有 二 . 其 一 ,求解 问题 (6.63) 属于 最 优化 方法 ， 
与 统计 问题 相差 较 远 ， 其 二 ， R 软件 提供 了 非常 方便 的 求解 优化 问题 的 函数 ， 
使 我 们 可 以 方便 地 得 到 其 估计 值 . 

R 软件 中 的 加 SO 函数 可 以 求解 非 线 性 最 小 二 乘 问题 (6.63), 其 使 用 格式 为 

nls(formula, data = parent.frame(), start, 
control = nls.control(), 


algorithm = "default", trace = FALSE, subset, 





weights, na.action, model = FALSE) 
其 中 formula 是 包括 变量 和 人 参数 的 非 线性 拟 合 公式 ， data 是 可 选择 的 数据 框 . 
start 是 初始 点 ， 用 列表 (1ist) 形式 给 出 ， 其 他 参数 见 在 线 帮 助 ， 
例 6.23 在 化 学 工业 的 可 靠 性 研究 中 ， 对 象 是 某 种 产品 4. 在 制造 时 单位 产品 中 
必须 含有 0.50 的 有 效 氛 气 ， 已 知 产品 中 的 氛 气 随 着 时 间 增 加 而 减少 ， 在 产品 到 
达 用 户 之 前 的 最 初 8 周 内 ,氮气 含量 衰减 到 0.49. 但 由 于 随后 出 现 了 许多 无 法 
控制 的 因素 (如 库房 环境 、 处 理 设备 等 ) 因而 在 后 8 周 理论 的 计算 对 有 效 氛 气 的 
进一步 预报 是 不 可 靠 的 . 为 了 有 利于 管理 需要 决定 (1) 库存 产品 何 时 应 该 报废 ? 
(2) 何 时 应 该 更 换 存 货 ? 在 一 段 时间 中 观测 若干 金 产 品 得 到 的 数据 如 表 6.16 所 
示 . ”假定 非 线性 模型 


Y=a+t+(0.49—a)exp(-6(X—8))+e (6.64) 


能 解释 当 入 过 8 时 数据 中 出 现 的 变 差 . 试用 非 线性 最 小 二 乘 方法 分 析 ， 
解 : 输入 数据 ， 用 nls() 求解 (程序 名 :exam0623 .B) 
> cl<-data.frame( 
X=Cc(rep(2*x*4:21，c(2，4，4，3，3，2，3，3，3，3，2， 
3，2，1，2，2，1，1)))， 


Y=c(0.49, 0.49, 0.48, 0.47, 0.48, 0.47, 0.46, 0.46, 
0.45, 0.43, 0.45, 0.43, 0.43, 0.44, 0.43,，0.43,， 
0.46, 0.45, 0.42, 0.42, 0.43, 0.41, 0.41, 0.40, 
0.42, 0.40, 0.40, 0.41, 0.40, 0.41, 0.41, 0.40, 
0.40, 0.40, 0.38, 0.41, 0.40, 0.40,，0.41,，0.38, 
0.40，0.40，0.39，0.39) 
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表 6.16: 单位 产品 中 有 效 氧气 的 百分数 
序号 | 生产 后 的 时 间 有效 氟 气 | 序号 | 生产 后 的 时 间 有效 氛 气 





22 0.41 
22 0.40 
24 0.42 
24 0.40 
24 0.40 
26 0.41 
26 0.40 
26 0.41 
28 0.41 
28 0.40 
30 0.40 
30 0.40 
30 0.38 
32 0.41 
32 0.40 
34 0.40 
36 0.41 
36 0.38 
38 0.40 
38 0.40 
40 0.39 
42 0.39 


) 
> nls.sol<-nls(Y“a+(0.49-a)*exp(-b*(X-8)), data=cl, 
start = list( a= 0.1, b = 0.01 )) 
> nls.sum<-summary(nls.so0l1); nls.sum 


Formula: Y ~ a+ (0.49 - a) * exp(-b * (X - 8)) 
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Parameters: 

Estimate Std. Error t value Pr(>|t|) 
a 0.390140 0.005045 77.333 < 2e-16 *** 
b 0.101633 0.013360 7.607 1.99e-09 +*** 


Signif. codes: 0 ’***’ O.001 ?x**’? O0.01 ’*’” 0.05 ”.”0.1 ，” ”1 


Residual standard error: 0.01091 on 42 degrees of freedom 


Correlation of Parameter Estimates: 
a 


b 0.8879 
因此 ， 模 型 为 


入 


Y = 0.39 + (0.49 — 0.39) exp(—0.10(X — 8)). 


下 面 画 出 数据 的 散 点 图 和 相应 的 拟 合 曲线 ， 及 软件 命令 如 下 ， 
> xfit<-seq(8,44,1en=200) 
> yfit<-predict(nls.sol, data.frame (X=xfit)) 
> plot(cl$X, cl$Y); lines(xfit,yfit) 
其 图 形 如 图 6.14 所 示 . 
下 面 讨论 对 于 非 线 性 回归 模型 其 他 参数 估计 的 计算 . 
非 线 性 回归 参数 的 推断 要 求 对 误差 项 方差 o? 作出 估计 ， 这 个 估计 值 与 线性 
回归 是 一 样 的 





丰台 
ON) 
ON nk (0) 


n 


> 
to 
~. 
ll 
记 
~ 











其 中 0 是 参数 9 估计 值 ， 对 非 线性 回归 来 说 ， 6? 不 是 o? 的 无 偏 估 计量 ,但 是 
当 样本 量 很 大 时 ， 它 的 偏差 很 小 . 

在 R 软件 中 ， 不 必用 式 (6.65) 计算 o 的 估计 值 5, 因为 R 已 经 提供 了 它 的 
值 (summary()$sigma), 例如 ， 对 于 例 6.23， 
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cl$Y 
0.42 0.46 0.48 
| | | 


0.40 
| 











0.38 
| 
O 〇 
[© 





图 6.14: 氧气 数据 的 拟 合 曲线 与 观测 点 





> nls.sum$sigma 


[1] 0.01091273 
给 出 了 = 0.01091273. 
当 模 型 的 误差 项 满足 s; ~ N(0,o?), 而 样本 量 n 也 充分 大 时 ， 则 0 的 样本 分 
布 近似 正 态 ， 且 
E(0) ~ 0. (6.66) 
这 样 ， 当 样本 量 充分 大 时 ，, 非 线 性 回归 的 最 小 二 乘 估 计量 9 是 近似 正 态 分 布 的 ， 
而 且 是 无 偏 的 ， 回 归 系 数 近似 协 方差 矩阵 的 佑 计 值 是 


Var(0) = 6°(DTD). (6.67) 





其 中 DD 是 根据 最 后 最 小 二 乘 估计 值 9 计算 得 到 的 Jacobi 矩阵 .与 线性 回归 的 估 
计 协 方差 矩阵 具有 完全 相同 的 形式 ， DD 充当 了 X 和 矩阵 的 角色 ， 
例如 ， 对 于 例 6.23， 


JUXa,D9)=Qw 二 (0.49 一 a)exp( 一 B(X 一 8))， 
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求 偏 导数 得 到 
1 = 1—exp(—P(X — 8)), 
3 
J 一 (0.49 — a)(X — 8) exp(—6(X — 8)). 





下 面 是 计算 回归 系数 近似 协 方差 矩阵 的 过 程 . 
(1) 按照 公式 (6.68)-(6.69), 编写 计算 偏 导 数 函 数 
> fn<-function(a, b, X){ 
fl <- 1-exp(-b*(X-8)) 
f2 <- -(0.49-a)*(X-8)*exp(-b*(X-8)) 
cbind(f1,f2) 
} 
函数 的 返回 值 是 矩阵 . 
(2) 代入 参数 和 变量 数据 X, 计算 偏 导数 在 X 处 的 值 
> D<-fn(nls.sum$parameters[1,1], 
nls.sum$parameters[2,1], cl$X) 
得 到 的 数据 是 由 偏 导 数 构成 的 矩阵 . 
(3) 按照 式 (6.67) 计算 出 Var(9) 
> theta.var<-nls.sum$sigma“2*solve(t (D)%*%D) 
(4) 得 到 相应 的 计算 结果 
> theta.var 
£f1 f2 
fl 2.545130e-05 5.984318e-05 
f2 5.984318e-05 1.784969e-04 


(6.68) 


(6.69) 


有 了 回归 系数 的 协 方差 矩阵 ， 就 可 以 计算 参数 a, 8 估计 值 4, 2 的 标准 差 


sd(C) sgqrt(theta.var[1,1]) = 0.005044928, 


sd(B) = sqrt(theta.var[2,2]) = 0.01336027. 


事实 上 ,我 们 不 必 计 算 参 数 的 标准 差 ， 在 计算 非 线 性 回归 时 ， 此 参数 已 计算 


出 来 ， 它 们 放 在 nls.sum$parameters[,2] 中 ， 
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> nls.sum$parameters[,2] 
a b 
0.005044928 0.013360272 


当 非 线性 回归 模型 (6.62) 的 误差 项 是 独立 正 态 分 布 时 , 如 果 样 本 量 充分 大 ， 
则 成 立 下 述 近似 结果 ; 
6; — 0; 
sd(0;) 
其 中 sd(0;) 表示 0; 的 标准 差 . 因此 ， 对 任意 单个 的 90;, 近似 1 一 a 置信 区 间 与 
通常 是 一 样 


届 湖人 三 了 三 人 (6.70) 





(0; — toa(n — k)sd(0;), 0; + toaa(n — k)sd(0;)]. (6.71) 


下 面 给 出 计算 参数 区 间 估 计 的 程序 ， 程 序 名 : ”paramet .int.R. 
paramet .int<-function(fm, alpha=0.05)t 
paramet <- fm$parameters[,1] 
df <- nls.sum$df [2] 
left <- paramet-nls.sum$parameters[,2] 
right <- paramet+nls.sum$parameters[,2] 
rowname <- dimnames(nls.sum$parameters)[[1]] 
colname <- c('"Estimate", "Left", "Right") 
matrix(c(paramet ,left, right), ncol=3, 
dimnames = list(rowname, colname )) 
} 
其 中 fm 是 由 nls() 函数 得 到 的 计算 结果 . alpha 是 显著 性 水 平 ， 函数 的 返回 
值 是 一 矩阵 ， 其 值 有 参数 的 佑 计 值 和 相应 的 区 间 佑 计 . 
用 函数 paramet .int() 计算 例 6.23 中 参数 的 区 间 佑 计 . 
> Source("paramet.int.R"); paramet.int(nls.sol) 
Estimate Left Right 
a 0.3901401 0.38509514 0.3951850 
b 0.1016328 0.08827257 0.1149931 


3. 非 线性 模型 的 参数 估计 一 nlm() 函数 的 使 用 
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在 及 软件 中 ,也 可 用 函数 回 亚 妨 求解 非 线 性 最 小 二 乘 问 题 (6.63). nlm() 使 
用 格式 
nlm(f, p, hessian = FALSE， 
typsize=rep(1, length(p)), fscale=1, 
print.level = 0, ndigit=12, gradtol = 1e-6, 


stepmax = max(1000 * sqrt(sum((p/typsize)^2)), 1000), 


steptol = 1e-6, iterlim = 100， 
check.analyticals = TRUE, ...) 
其 中 国 是 求 极 小 的 目标 函数 ， 如 果 £ 的 属性 包含 梯度 (’gradient’) 或 梯度 
('gradient’) 和 Hesse 矩阵 ('hessian’), 则 在 算法 求 极 小 时 会 直接 用 到 梯度 
或 Hesse 和 矩阵， 否则 用 数值 的 方法 求 导数 .， 固 是 参数 ( 即 模型 (6.62) 中 的 9) 的 
初 值 ， ssjia 是 逻辑 变量 ， 当 hessian=TRUE 时 ， 其 结果 给 出 相应 的 Hesse 算 
阵 ， 和 否则 (FALSE 缺 省 值 ), 将 不 计算 Hesse 和 矩阵， 其余 参 数 的 意义 见 在 线 帮助 . 
这 个 函数 采用 Newton 型 算法 求 极 小 ， 函 数 的 返回 值 是 一 个 列表 ， 包 含 极 小 
值 ， 极 小 点 的 估计 值 ， 极 小 点 处 的 梯度 、 Hesse 和 矩阵， 以 及 求解 所 需 的 迭代 次 数 
等 . 
在 第 四 章 的 4.1.2 节 介 绍 过 nlm() 函数 的 使 用 方法 , 下 面 再 进一步 介绍 nlm() 
的 使 用 方法 ， 在 程序 中 给 出 目标 函数 的 梯度 . 
例 6.24 用 函数 nlm() 作 例 6.23 的 非 线性 最 小 二 乘 估 计 . 
解 : 写 出 非 线性 最 小 二 乘 问题 的 目标 函数 ,其 中 函数 包含 梯度 (gradient ) 
属性 ， 枯 数 名 :， fn.R 
fn<-function(p, X, Y){ 
f <- Y-p[1]-(0.49-p[1])*exp(-p[2]*(X-8)) 
res<-sum(f“2) 
fl<- -ilitexp(-p[2]*(X-8)) 
f2<- (0.49-p[1])*exp(-p[2]*(X-8))*(X-8) 
J<-cbind(f1,f2) 
attr(res, "gradient") <- 2*t(J)%*%f 





res 


在 函数 中 ，f 是 残 差 向 量 ， res 是 残 差 平方 和 . f1 是 f 对 pi 求 导数 得 到 
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的 向 量 ， f2 是 f 对 ps 求 导数 得 到 的 向 量 . J 是 Jacobi 和 窍 阵 . 
再 用 nlm() 函数 求解 


> out<-nlm(fn, p=c(0.1, 0.01), X=cl$X, Y=cl$Y, hessian=TRUE); out 
$minimum 
[1] 0.00500168 
$estimate 
[1] 0.3901400 0.1016327 
$gradient 
[1] 7.954390e-07 -3.261297e-07 
$hessian 
[,1] [,2] 
[1,] 44.20335 -14.799291 
[2,] -14.79929 6.248565 
$code 
[1] 1 
$iterations 


[1] 33 





在 上 述 计算 结果 中 ， minimun 是 目标 函数 在 最 优点 处 的 最 小 值 ， 也 就 是 残 
差 的 平方 和 ;estimate 是 参数 的 估计 值 ， 即 G,， 有 ;gradient 是 目标 函数 在 最 
优点 处 的 梯度 值 ; hessian 是 目标 函数 在 最 优点 处 的 Hesse 矩阵 ， 它 可 以 作为 
DTD 的 近似 值 ; iterations 是 迭代 次 数 . 








由 上 述 结果 可 以 很 容易 地 计算 62, 和 G, 8 方差 阵 


> n<-length(X); k<-2 

> sigma2<-out$minimum/ (n-k); sigma2 

[1] 0.0001190876 

> theta.var<-sigma2*solve(out$hessian); theta.var 
[,1] [ ,2] 

[1,] 1.301183e-05 3.081760e-05 

[2,] 3.081760e-05 9.204775e-05 
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b>24 


6.1 为 估计 山上 积 雪 融 化 后 对 下 游 灌溉 的 影响 ， 在 山上 建立 一 个 观测 站 ， 测 量 
最 大 积 雪 深度 X 与 当年 灌溉 面积 了 , 测 得 连续 10 年 的 数据 如 表 6.17 下 所 示 . 
表 6.17: 10 年 中 最 大 积 雪 深 度 与 当年 灌溉 面积 的 数据 


名 YA 二 
5.1 7.8 


1 3000 
2 4.5 1947 
3 : 5.6 2273 
4 8.0 3113 
5 6.4 2493 





(了 试 画 相应 的 散 点 图 判断 》 与 处 是否 有 线性 关系 ; 

[2) 求 出 Y 关于 X 的 一 元 线性 回归 方程 ; 

(3) 对 方程 作 显著 性 检验 ; 

(4) 现 测 得 今年 的 数据 是 六 = 7 米 ， 给 出 今年 灌溉 面积 的 预测 值 和 相应 的 
区 闻 估 计 (a = 0.05). 
6.2 研究 同一 地 区 土壤 所 含 可 给 态 研 的 情况 ， 得 到 18 组 数据 如 表 6.18 所 示 . 
表 中 X1 为 土壤 内 所 含 无 机 磷 浓 度 ， Xo 为 土壤 内 溶 于 K2COs 溶液 并 受 溴 化物 

表 6.18: 某 地 区 土壤 所 含 可 给 态 磷 的 情况 


51 
76 
96 
77 
93 
95 
54 
168 
99 


Oi Oo Dm oo WO ~ 
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水 解 的 有 机 磷 ， Xs 为 土壤 内 溶 于 K2CO3 溶液 但 不 溶 于 省 化 物 水 解 的 有 机 磷 . 
(1) 求 出 Y 关于 XX 的 多 元 线性 回归 方程 ; 
(2) 对 方程 作 显著 性 检验 ; 
(3) 对 变量 作 逐 步 回 归 分 析 . 
6.3 已 知 如 下 数据 ， 由 表 6.19 所 示 . 
表 6.19: 数据 表 


17.5 
13.4 
4.5 
30.4 
12.4 
13.4 
26.2 
7.4 


OO 0 ~ 负心 co cc 
~ 信人 心 


| 
1 
1 
1 
2 
2 
2 
3 
3 
3 


| 二 
© 





(1) 画 出 数据 的 散 点 图 ， 求 回归 直线 Y = [0 十 P17, 同时 将 回归 直线 也 画 在 
散 点 图 上 ; 

(2) 分 析 了 检验 和 妒 检 验 是 否 通 过 ; 

(3) 画 出 残 差 (普通 残 差 和 标准 化 残 差 ) 与 预测 值 的 残 差 图 ， 分 析 误差 是 否 
是 等 方差 的 ; 

(4) 修正 模型 ， 对 响应 变量 了 作 开 方 ， 再 完成 (1)-(3) 的 工作 . 
6.4 对 牙膏 销售 数据 (数据 表 见 例 6.9) 得 到 的 线性 模型 作 回归 诊断 ， 分 析 哪 些 
样本 点 需要 作 进一步 的 研究 ? 哪些 样本 点 需要 在 回归 计算 中 删 去 ， 如 果 有 ， 删 去 
再 作 线性 回归 模型 的 计算 . 
6.5 诊断 水 泥 数 据 (数据 见 例 6.10) 是 否 存 在 多 重 共 线 性 , 分 析 例 6.10 中 step() 
函数 去 掉 的 变量 是 否 合 理 . 
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6.6 为 研究 一 些 因素 (如 用 抗生素 、 有 无 危险 因子 和 事先 是 否 有 计划 ) 对 全 | 腹 
后 是 否 有 感染 ”的 影响 ， 表 6.20 给 出 的 是 某 医 院 剖 腹 产 后 的 数据 , 试用 logistic 


表 6.20: 某 医院 进行 


有 危险 因子 
没 有 
有 危险 因子 
没 有 


回归 模型 对 这 些 数据 数据 进行 研究 ， 分 析 感 染 与 这 些 因素 的 关系 


6.7 一 位 饮食 公司 的 分 析 人 员 想 调查 自助 餐馆 中 的 自动 咖啡 售 货 机 数量 与 咖啡 
销售 量 之 问 的 关系 ， 她 选择 了 14 家 餐馆 来 进行 实验 . 这 14 家 餐馆 在 营业 额 、 
顾 容 类 型 和 地 理 位 置 方面 都 是 相近 的 . 放 在 试验 餐馆 的 自动 售 货 机 数量 从 0( 这 
里 咖啡 由 服务 员 痛 来 ) 到 6 不 等 ， 并 且 是 随机 分 配 到 每 个 餐馆 的 . 表 6.21 所 示 
的 是 关于 试验 结果 的 数据 . 





表 6.21: 自动 咖啡 售 货 机 数量 与 咖啡 销售 量 数据 
售 货 机 数量 咖啡 销售 量 售 货 机 数量 咖啡 销售 量 
3 697.5 
755.3 
758.9 
787.6 
792.1 
841.4 
831.8 


只 OU 心心 





(1) 作 线 性 回归 模型 ; 
(2) 作 多 项 式 回归 模型 ; 
(3) 画 出 数据 的 散 点 图 和 拟 合 曲线 . 
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6.8 表 6.22 是 40 名 肺癌 病人 的 生存 资料 ， 其 中 Xi 表示 生活 行动 能 力 评分 
(1 ~ 100); Xs 表示 病人 的 年 龄 ， X3a 表示 由 诊断 到 直入 研究 时 间 (月 ); Xs 表示 


表 6.22: 40 名 肺癌 病人 的 生存 资料 
37 13 
54 12 
52 8 
50 7 
65 21 
52 28 
70 13 
40 13 
36 22 
44 36 
54 9 
59 87 
69 5 
50 22 
62 4 
68 15 
39 4 
49 11 
64 10 
67 18 
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1 
1 
1 
1 
1 
1 
1 
2 
2 
2 
之 
2 
2 
2 
3 
3 
0 
0 
0 
0 





肿瘤 类 型 (“0” 是 磷 癌 ，“1?” 是 小 型 细胞 癌 ， 多” 是 腺 癌 ，“3” 是 大 型 细胞 癌 ); 
Xs 表示 两 种 化 疗 方法 (“1” 是 常规 ，“0” 是 试验 新 法 ); Y 表示 病人 的 生存 时 间 
(“0” 是 生存 时 间 短 ， 即 生存 时 间 小 于 200 天 ; “1” 表 示 生 存 时 间 长 ， 即 生存 时 
间 大 于 或 等 于 200 天 ). 

(了) 建立 P(Y =1) 对 Xi~ Xs 的 logistic 回归 模型 ，X ~ Xs 对 P(Y =1) 
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的 综合 影响 是 否 显著 ? 哪些 变量 是 主要 的 影响 因素 ， 显 著 水 平 如 何 ? 计算 各 病人 
生存 时 间 大 于 等 200 天 的 概率 估计 值 . 

(2) 用 逐步 回归 法 选取 自 变量 ， 结 果 如 何 ?” 在 所 选 模 型 下 ， 计 算 病 人 生存 时 
间 大 于 等 于 200 天 的 概率 估计 值 ， 并 将 计算 结果 与 (1) 中 模型 作 比 较 ， 差 异 如 
何 ? 哪 一 个 模型 更 合理 . 
6.9 一 位 医院 管理 人 员 想 建立 一 个 回归 模型 ， 对 重伤 病人 出 院 后 的 长 期 恢复 情 
况 进 行 预 测 . 自 变量 是 病人 住院 的 天 数 (X) 应 变量 是 病人 出 院 后 长 期 恢复 的 预 
后 指数 (Y) ， 指 数 的 数值 越 大 表示 预后 结局 越 好 . 为 此 ， 研 究 了 15 个 病人 的 数 
据 ， 这 些 数据 列 在 表 6.23 中 . 根据 经 验 表 明 ， 病 人 住院 的 天 数 (X) 和 预后 指 


表 6.23: 关于 重伤 病人 的 数据 


1 34 18 
2 38 13 
3 45 8 
4 52 11 
5 53 8 
6 60 4 
7 65 6 
8 





数 (Y) 服从 非 线 性 模型 


Y= 00 exp (01X:;) Ey 4 三 1,2,..°,15. 


(1) 用 内 在 线性 模型 方法 计算 其 各 种 参 的 估计 值 
(2) 用 非 线性 方法 fals() 函数 和 nlm() 函数 ) 计算 其 各 种 参 的 估计 值 . 
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在 实际 工作 中 ， 影 响 一 件 事 的 因素 是 很 多 的 ， 人们 总 是 希望 通过 各 种 试验 来 
观察 各 种 因素 对 试验 结果 的 影响 例如: 不 同 的 生产 三家， 不同 的 原材料 ， 不 同 
的 操作 规程 ， 及 不 人 性 能 都 会 有 影响 ， 然 而 不 同 因 
素 的 影响 大 小 不 等 ， 方 差分 析 上 中 或 多 种 的 变化 对 试验 结果 的 观测 
值 是 否 有 显著 影响 .从 而 找 出 较 优 的 试验 条 件 或 生产 条 件 的 一 种 当 用 数理 统计 方 
二 




















人 们 在 试验 中 所 考 塞 到 的 数量 指标 如 产量 、 性 能 等 称 为 影响 观测 什 
的 条 件 称 为 因素 ， 因 素 的 不 同 状 态 称 为 来 琵 ， 一 个 因素 可 以 采用 多 个 水 平 ， 在 一 
项 试验 中 ,可 以 得 出 一 系列 不 同 的 观测 值 . 引起 观测 值 不 同 的 原因 是 多 方面 的 ， 
有 的 是 处 理 方式 不 同 或 条 件 不 同 引起 的 , 称 作 因 素 效应 (或 处 理 效应 、 条 人 
有 的 是 试验 过 程 中 偶然 性 因素 的 二 所 导致 的 最 称 作 试 验 误 












为 统计 推断 的 依据 ， 由 此 确定 进一步 的 工作 方向 . 


7.1 单 因 素 方 差分 析 


下 面 从 一 个 实例 出 发 说 明 单 因素 方差 分 析 的 基本 思想 . 
例 7.1 利用 四 种 不 同 配方 的 材料 A1 、 A2 、 A3 、 .44 生产 出 来 的 元 件 ， 测 得 
其 使 用 寿命 如 表 7.1 所 示 ,， 问 : 四 种 不 同 配方 下 元 件 的 使 用 寿命 有 无 显著 的 差 


表 7.1: 元 件 寿 命 数据 


材料 使 用 寿命 

41 1600 1610 1650 1680 1700 1700 1780 

42 1500 1640 1400 1700 1750 

43 1640 1550 1600 1620 1640 1600 1740 1800 
44 1510 1520 1530 1570 1640 1600 





异 ? 
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在 此 例 中 材料 的 配方 是 影响 元 件 的 使 用 寿命 的 因素 , 四 种 不 同 的 配方 表明 因 
素 处 于 四 种 状态 ， 称 为 四 种 水 平 ， 这 样 的 试验 称 为 单 因素 四 水 平 试验 ， 由 表 中 数 
据 可 知 , 不 仅 不 同 配方 的 材料 生产 出 的 元 件 使 用 寿 全 不 同 ， 而 且 同 一 配方 下 元 件 
的 使 用 不 一 样 . 分 析 数 据 波动 的 原因 主要 来 自 两 方面 . 

CE 试验 条 件 大 体 相同 ， 因 此 ， 数 据 
的 波动 是 由 于 其 它 随机 因素 的 干扰 所 引起 的 . 设想 在 同一 配方 下 元 件 的 使 用 寿命 
应 该 有 一 个 理论 上 的 均值 ， 而 实测 寿命 数据 与 均值 的 偏离 即 为 随机 误差 ， 此 误差 
服从 正 态 分 布 . 

其 三 ， 在 不 同 的 配方 下 ， 使 用 寿命 有 不 同 的 均值 ， 它 导致 不 同 组 的 元 件 间 寿 
命 数据 的 不 同 . 

对 于 一 般 情况 ， 设 试验 只 有 一 个 因素 4 在 变化 ， 其 它 因素 都 不 变 ， 4 有 ”7 
个 水 平 41, A2,…, 4 在 水 平 4; 下 进行 w 次 独立 观测 , 得 到 试验 指标 列表 中 ， 
如 表 7.2 所 示 . 











表 7.2: 单 因 素 方差 分 析 数 据 
水 平 观测 值 





其 中 zz 表示 在 因素 4 的 第 i 个 水 平 下 的 第 7 次 试验 的 试验 结果 . 


7.1.1 ”数学 模型 


将 水 平 4 下 的 试验 结果 Zi， zi ……， zin 看 作 来 自 第 i 个 正 态 总 体 Xi; ~ 
Na) 的 样本 观测 值 ， 其 中 i, 0? 均 未 知 ， 且 每 个 总 体 Xi; 相互 独立 ， 考虑 线 
性 统计 模型 
Tij = Witeij, 1=1,2,...,7, 
情 ~ N(0， 0 且 相 互 独 芯 ， 


其 中 ji 是 第 i 个 总 体 的 均值 ， si 是 相应 的 试验 误差 . 
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比较 因素 4 的 7 个 水 平 的 差异 归结 为 比较 这 7 个 总 体 的 均值 ， 即 检验 假设 
Ho: t= 2 == Mr, 玉 i : j,kH2,… ,Mr 不 全 相等 . {7:2) 
记 
1 Tr PP 
p= mb n= mm, 二 让 一 
i=1 i=1 
这 里 表示 总 和 的 均值 ， a 为 水 平 A; 对 指标 的 效应 ， 不 难 验证 和 muias = 0 
i=1 
模型 (7.1) 又 可 以 等 价 写成 


Xi; = H+ Qi ei, = = ee gM 
sy N(0;o’) 且 相 互 独立 ， 


六 
> NiQi; 一 0. 
i=1 


称 模型 (7.3) 为 单 因素 方差 分 析 的 数学 模型 ， 它 是 一 种 线性 模型 . 





7.1.2 方差 分 析 
因此 假设 (7.2) 等 价 于 





万 0 : Ql Qo es Cr 0, Hi: Q1,Q2, ,Or 不 全 为 零 . (7.4) 








如 果 Ho 被 拒绝 ， 则 说 明 因素 4 的 各 水 平 的 效应 之 间 有 显著 的 差异 ， 否则 ， 差异 


不 明显 . 
为 了 导出 Ho 的 检验 统计 量 . 方差 分 析 法 建立 在 平方 和 分 解 和 自由 度 分 解 的 
基础 上 ， 考 虑 统计 量 





从 Ni k Ni 


x 一 | 
Sr= ,> (zi — 2), 一 二 >， zj 


i=1 j=1 i=1 j=1 





称 97 为 总 离 差 平方 和 (或 称 为 总 变 差 ), 它 是 所 有 数据 zi 与 总 平均 值 Z 差 的 平方 
和 ， 描 绘 了 所 有 观测 数据 的 离散 程度 . 经 计算 可 以 证 明 如 下 的 平方 和 分 解 公式 ; 


= (7.5) 
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Tr Ni 1 Ni 
— \2 三 
Sg = DD (ry -Bi), Fi = > ij 
J 
j=1 


i=1 j=1 


Sr — 7£)? = 2 mt 一 过 2. 


i=1 j=1 


SA 


这 里 5 加 表示 了 随机 误差 的 影响 这 是 因为 对 于 固定 的 i 来 讲 ， 观 测 值 za, Ziz， 
…, Xinms 是 来 自 同一 个 正 态 总 体 (ji,0”) 的 样本 ， 因 此 ， 它 们 之 间 的 差异 是 由 
随机 误差 所 致 ， 而 人 一 Zi)” 是 这 m 个 数据 的 变动 平方 和 ， 正 是 它们 差异 大 
一 一 一 一 -一 二 
小 的 度量 . 将 7 组 这 样 的 变动 平方 和 相 加 ， 就 得 到 了 Ss, 通常 称 Sz 为 误差 平方 
和 或 组 内 平方 和 . 

54 表示 在 A; 水 平 下 的 样本 均值 与 总 平均 值 之 间 的 差异 之 和 ， 它 反映 了 7 
个 总 体 均值 之 间 的 差异 ， 因 为 3 是 第 i 个 总 体 的 样本 均值 ， 是 1 的 估计， 因此 
”个 总 体 均值 1, 42,.…, pr 之 间 的 差异 越 大 ， 这 些 样本 均值 ,32，… ,7D.. 之 间 
的 差异 也 就 越 大 ， 平方 和 2 一 2)” 正 是 这 种 差异 大 小 的 度量 .这 里 ni 反 
映 了 第 i 个 总 体 样本 大 小 在 平方 和 和 S4 中 的 作用 . 称 54 为 因素 4 的 效应 平方 和 
或 组 间 平 方 和 . 

公式 (7.5) 表明 ， 总 平方 和 Sz 可 按 其 来 源 分 解 成 两 部 分 ， 一 部 分 是 误差 平 
方 和 Sz, 是 由 随机 误差 引起 的 . 男 一 部 分 是 因素 4 的 平方 和 54, 是 由 因素 4 的 
各 水 平 的 差异 引起 的 . 本 

由 模型 假设 (7.2) 经 过 统计 分 析 可 以 得 到 EB(SE) = (n 一 7)o”, 即 Sg/(n 一 7) 
是 的 一 个 无 偏 估计 ， 且 














E 
2 a Xn —7). 


如 果 原 假设 Ho 成 立 ， 则 有 (54) = (一 Do 即 此 时 S4/(r 一 1) 也 是 0? 的 无 
偏 佑 计 ， 且 


2 


并 且 54 与 Sp 相互 独立 ， 因 此 当 加 成 立时 ， 


i Sa/(r—1) 
SpE/(n—r7) 





F ~ FPF(r—1,n—r7). (7.6) 
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于 是 下 (也 称 FR 比 ) 可 以 作为 Ho 的 检验 统计 量 ， 对 给 定 的 显著 性 水 平 a, 用 
F, (r—1, n 一 7) 表示 了 分 布 的 上 a 分 位 点 若 卫 > (7 一 1,n 一 7), 则 拒绝 原 
假设 , 认为 因素 A 的 + 个 水 平 有 显著 差异 . 也 可 以 通过 计算 P- 值 的 方法 来 决定 
是 接受 还 是 拒绝 原 假设 Ho. p 值 为 p == P{ 了 (7 一 1,n 一 7) > 了}, 它 表示 的 是 服 
从 目 由 度 为 (7 一 1,n 一 7) 的 了 分 布 的 随机 变量 取 值 大 于 下 的 概率 显然， 2 值 
小 于 a 等 价 于 了 > Few 一 1,n 一 7), 表示 在 显著 性 水 平 a 下 的 小 概率 事件 发 生 
了 ， 这 意味 着 应 该 拒绝 原 假设 Ho. 当 2 值 大 于 a 时 ， 则 无 法 拒绝 原 假设 ， 所 以 
应 接受 原 假设 HH. 
通常 将 计算 结果 列 成 表 7.3 的 形式 ， 称 为 方差 分 析 表 . 








表 7.3: 单 因素 方差 分 析 表 


ET 
7 一 工 





7.1.3 ”方差 分 析 表 的 计算 
R 软件 中 的 6VO 函数 提供 了 方差 分 析 表 的 计算 ， aov( 函数 的 使 用 方法 





Pu 





其 中 formula 是 方差 分 析 的 公 过 data 是 数据 框 ， 其 他 见 在 线 帮 助 
另外 ， 可 用 summary() 列 出 方差 分 析 表 的 详细 信息 . 
例 7.2 ( 续 例 7.1) 用 尺 软 件 计算 例 7.1. 
解 : 用 数据 框 的 格式 输入 数据 , 调用 aov() 函数 计算 方差 分 析 , 用 summary () 
提取 方差 分 析 的 信息 (程序 名 exam0702.R) 
> lamp<-data.frame( 
X=c(1600，1610，1650，1680，1700，1700，1780，1500，1640， 
1400，1700，1750，1640，1550，1600，1620，1640，1600， 
1740，1800，1510，1520，1530，1570，1640，1600) ， 
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A=facton(c(rep(1,7) ,rep(2,5)，rep(3,8) ，rep(4,6))) 
) 
> lamp.aov<-aov(X ~ A, data=lamp) 
> summary (lamp .aov) 
Df Sum Sq Mean Sq F value Pr(>F) 
A 3 49212 16404 2.1659 0.1208 
Residuals 22 166622 7574 


上 述 数 据 与 方差 分 析 表 7.3 中 的 内 容 相 对 应 ， 其 中 DE 表示 自由 度 ， Sm Sq 可 表 
示 平 方 和 ，Meaa Sq 表示 均 方 ，E value 表示 下 值 ， 即 下 比 ” PF(C3F 表示 了 
值 ，A 不是 因素 A, REsidualg 是 残 差 ， 即 误差 . 
从 上 述 计算 结果 可 以 看 出 , 如 果 直 接 用 summary (lamp.aov) 的 话 , 它 没有 列 
出 方差 分 析 表 7.3 的 最 后 一 行 (总 和 行 ), 这 里 编 个 小 程序 (程序 名 : anova. tab.R)， 
作 一 点 改进 , 其 计算 方法 是 将 summary 函数 得 到 表 中 的 的 第 一 行 与 第 二 行 求 和 ， 
得 到 总 和 行 的 值 . 
anova.tab<-function(fm){ 
tab<-summary (fm) 
k<-length (tab[[1]])-2 
temp<-c(sum(tab[[1]][,1]), sum(tab[[1]][,2]), rep(NA,k)) 
tab[[1i]]["Total",]<-temp 
tab 
} 
这 个 小 程序 的 男 一 个 目的 是 学 会 如 何 利用 R 软件 的 计算 结果 来 得 到 我 们 需 
要 的 结果 .用 上 述 函 数 ， 就 可 以 得 到 完整 的 方差 分 析 表 . 
> source("anova.tab.R"); anova.tab(lamp.aov) 


Df Sum Sq Mean Sq F value Pr(>F) 


A 3 49212 16404 2.1659 0.1208 
Residuals 22 166622 7574 
Total 25 215835 


并 将 结果 填 在 方差 分 析 表 中 ， 由 表 7.4 所 示 . 
从 p 值 (0.1208 > 0.05) 可 以 看 出 ,没有 充分 理由 说 明 Ho 不 正确 ， 也 就 是 
说 ,接受 Ho. 说 明 四 种 材料 生产 出 的 元 件 的 平均 寿命 无 显著 的 差异 . 
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表 7.4: 元 件 寿命 试验 的 方差 分 析 表 


方 关 来 源 ?全 


因素 A 49212 16404 2.1658 0.1208 
误差 166622 7573 
总 和 215835 


通过 plot () 函数 绘图 来 描述 各 因素 的 差异 , 其 命令 如 下 ,所 绘图 形 由 图 7.1 
所 示 . 
> plot (lamp$X~lamp$A) 
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图 7.1: 元 件 寿命 试验 的 箱 线 图 





从 图 形 上 也 可 看 出 ， 四 种 材料 生产 出 的 元 件 的 平均 寿命 是 无 显著 差异 的 . 
例 7.3 小 白鼠 在 接种 了 3 种 不 同 菌 型 的 伤寒 杆菌 后 的 存活 天 数 如 表 7.5 所 示 . 
判断 小 白鼠 被 注射 三 种 菌 型 后 的 平均 存活 天 数 有 无 显著 差异 ? 

解 : 设 小 白鼠 被 注射 的 伤寒 杆菌 为 因素 ， 三 种 不 同 的 菌 型 为 三 个 水 平 ， 接 种 
后 的 存活 天 数 视 作 来 自 三 个 正 态 分 布 总 体 Na)( = 1,2,3) 的 样本 观测 值 . 
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表 7.5: 白鼠 试验 数据 





问题 归结 为 检验 : 
Ho: JW 二 J2 二 3; 了 且 : Wk2;K3 不 全 相等 . 


R 软件 计算 过 程 与 计算 结果 (exam0703 .B) 

> mouse<-data.frame( 

X=c( 2, 4, 3, 2, 4, 7, 7, 2, 2, 5, 4, 5, 6, 8, 5, 10, 7, 
12, 12, 6, 6, 7, 11, 6, 6, 7, 9, 5, 5, 10, 6, 3, 10), 
A=factor(c(rep(1,11),rep(2,10), rep(3,12))) 
) 
> mouse.aov<-aov(X ~ A, data=mouse) 
> source('"anova.tab.R'"); anova.tab(mouse.aov) 


Df Sum Sq Mean Sq F value Pr(>F) 


A 2 94.256 47.128 8.4837 0.001202 ** 

Residuals 30 166.653 5.555 

Total 32 260.909 

Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ”.”0.1 ” ”1 


2 值 远 小 于 0.01 应 拒绝 原 假设 ， 即 认为 小 白鼠 在 接种 三 种 不 同 菌 型 的 伤寒 
杆菌 后 的 存活 天 数 有 显著 的 差异 . 


7.1.4 ”均值 的 多 重 比较 


如 果 检验 的 结论 是 拒绝 Ho, 则 说 明 因素 4 的 7 个 水 平 效应 有 显著 的 差 
异 , 也 就 是 说 7 个 均值 之 间 有 显著 差异 . 但 是 这 并 不 意味 着 所 有 均值 间 都 存在 差 
异 ， 这 时 我 们 还 需要 对 每 一 对 yw; 和 4; 作 一 对 一 的 比较 ， 即 多 重 比 较 . 

多 重 比较 的 方法 很 多 ， 这 里 介绍 几 种 常用 的 方法 . 
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1. 多 重 t 检验 方法 
这 种 方法 本 质 上 就 是 针对 每 组 数据 进行 t 检验 ， 只 不 过 估计 方差 时 利用 的 是 
全 体 数据 因而 自由 度 变 大 .具体 地 说 ， 要 上 比较 第 i 组 与 第 ; 组 平均 数 ， 即 检验 


Ho:m=h, i#j, 6j=1,2,..,7. 


方法 采用 两 正 态 总 体 均值 的 t 检验 ， 取 检验 统计 量 


ye . < 
tj = 一 天 一 一 一 一 一 ， 1 天 小， 0 dy 2 (7.7) 
二) 





当 加 成 立时 ， i ~ tn 一 7). 所 以 当 
ty| > ts(n —7) (7.8) 
时 ， 说 明 ji 与 jw; 差异 显著 .定义 相应 的 P- 值 


pi; = P{ tn —7) > ltil }, (7.9) 


ne 由 度 为 n 一 "的 Nl 的 随机 变量 大 于 |tij| 的 概率 . 上 述 方法 等 价 于 当 








率 ， 所 得 到 的 的 “显著 差 时 的 结论 不 证 可 和 
P- 值 的 修正 
为 了 克服 多 重 t 检验 方法 的 缺点 , 统计 学 家 们 提出 了 许多 更 有 效 的 方法 来 调 
整 P- 值 ， 由 于 这 些 方法 涉及 较 深 的 统计 知识 ， 这 里 只 作 简 单 的 说 明 . 具体 调整 
方法 的 名 称 和 参数 见 表 7.6. 
R 软件 p- 值 调整 函数 是 ,aqjust(), 其 使 用 方法 如 下 : 


p.adjust(p, method = p.adjust.methods, n = length(p)) 
p.adjust .methods 


# cl("holm", "hochberg", "hommel", "bonferroni", 


BH" "BY" rfdr" "none'" 
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表 7.6: P- 值 的 调整 方法 





调整 方法 R 软件 中 的 参数 
Bonferroni "bonferroni" 
Holm (1979) "holm" 
Hochberg (1988) "hochberg" 
Hommel (1988) "hommel" 
Benjamini & Hochberg (1995) "BH" 

Benjamini & Yekutieli (2001) "BY" 


其 中 p 是 由 了- 值 构成 的 向 量 . method 是 修正 方法 ， 缺 省 值 是 Holm 方法 ， 即 
参数 "holm". 关于 其 他 方法 的 进一步 解释 ， 请 见 p.adjust() 函数 的 在 线 帮助 . 


3. 均值 的 多 重 比较 的 计算 


R 软件 中 的 Pairwise.tstest() 国 数 可 以 得 到 多 重 比较 的 p 值 ， 其 使 用 方 
法 如 下 : 






ee 

其 中 x 是 响应 向 量 .g 是 因子 向 量 . p.adjust .method 是 p 值 的 调整 方法 , 其 方法 
由 函数 p.adjust() 给 出 , 参数 值 由 表 7.6 所 示 . 如 果 p.adjust.method="none" 
表示 p- 值 是 由 式 (7.7) 和 式 (7.9) 计算 出 的 ,不 作 任何 调整 ， 缺 省 值 按 Holm 方 
法 ("holm") 作 调 整 . 

例 7.4 ( 续 例 7.3) 由 于 在 例 7.3 中 下 检验 的 结论 是 拒绝 Ho, 请 进一步 检验 














Ho : Hi = Hj, 1,7 = 1,2,3. 


解 : 首先 计算 各 个 因子 间 的 均值 ， 再 用 多 重 t 检验 方法 作 检验 ， 也 就 是 说 ， 
p- 值 不 作 任 何 调整 ， (程序 名 : ”exam0704.R) 
#### 求 数据 在 各 水 平 下 的 均值 
> attach (mouse) 
> mu<-c(mean(X[A==1]), mean(X[A==2]), mean(X[A==3])); mu 
[1] 3.818182 7.700000 7.083333 
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#### 作 多 重 二 检验 


> pairwise.t.test(X, A, p.adjust.method = "none") 





Pairwise comparisons using t tests with pooled SD 

data: X and A 

1 2 
2 0.00072 - 
3 0.00238 0.54576 
P value adjustment method: none 
将 计算 结果 列 入 表 中 ， 如 表 7.7 所 示 . 

表 7.7: 均值 多 重 检验 > 值 表 
Dij 

1.00000 0.00072 0.00238 
0.00072 1.00000 0.54576 





0.00238 0.54576 1.00000 


由 于 在 计算 时 选取 的 参数 是 p.adjust .method = "none", 所 以 计算 出 的 六 
值 没有 作 任 何 调 ， 即 表 7.7 表 中 的 数值 是 由 公式 (7.7) 和 公式 (7.9) 计算 出 来 的 . 
观察 两 个 作 调 整 后 p- 值 的 情况 . 
(1) Holm 调整 方法 . 
> pairwise.t.test(X, A, p.adjust.method = "holm") 
Pairwise comparisons using t tests with pooled SD 


data: X and A 





3 0.0048|0.5458 


P value adjustment method: holm 


(2) Bonferroni 调整 方法 . 
> pairwise.t.test(X, A, p.adjust.method = "bonferroni") 
Pairwise comparisons using t tests with pooled SD 


data: X and A 
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从 上 述 计算 结果 (无 论 是 调整 后 的 p- 值 还 未 调整 的 p- 值 ) 可 见 ， Hi 与 po， 











Hi 与 3 均 有 显著 差异 ， 而 /2 与 /1s 没有 显著 差异 . 即 小 日 鼠 所 接种 的 三 种 不 同 
菌 型 的 伤寒 杆菌 中 第 一 种 与 后 两 种 使 得 小 白鼠 的 平均 存活 天 数 有 显著 差异 . 而 后 
两 种 差异 不 显著 . 

从 箱 线 图 也 能 看 出 这 种 情况 ， 见 图 7.2 所 示 . 


> plot (mouse$X“mouse$A) 




















mouse$X 























mouse$A 


图 7.2: 小 白鼠 平均 存活 天 数 的 箱 线 图 


7.1.5 = 和 
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(四 可 加 储 .假设 模型 是 线性 可 加 模型 ， 每 个 处 理 效 应 与 随机 误差 是 可 以 欠 
加 的 ， 即 
Tij 二 从 十 Qi 十 Eij: 


( 试验 误差 应 当 服 从 正 态 分 布 、 而 且 相 互 独立 . 
不 同 处 理 间 的 方差 是 一 致 的 ， 即 满足 假设 


Ho: o 叶 一 喧 一 一 o (7.10) 


对 于 党 用 的 试验 来 说 , 大 都 能 满足 以 上 三 个 条 件 . 对 于 有 些 不 满足 条 件 的 试 
验 ， 可 以 先进 行 数据 变换 再 进行 方差 分 析 . 

面 对 试 验 结果 ， 如 果 对 误差 的 正 态 性 和 方差 齐 性 没有 把 握 ， 则 应 进行 检验 . 

1. 误差 的 正 态 性 检验 

误差 的 正 态 性 检验 本 质 上 就 是 数据 的 正 态 性 检验 . 可 以 用 第 三 章 3.2.4 节 介 
绍 的 W 检验 (shapiro.test() 函数 ) 方法 对 数据 作 正 态 性 检验 . 
例 7.5 对 例 7.1 的 数据 作 正 态 性 检验 . 

解 : 调用 shapiro.test() 函数 对 因素 A 的 不 同 水 平 作 W 正 态 性 检验 . 


> attach (lamp) 





#### 水 平 1 





> shapiro.test (X[A==1]) 
Shapiro-Wilk normality test 

data: X[A == 1] 

W = 0.9423, p-value = 0.6599 

#### 水 平 2 





> shapiro.test (X[A==2]) 
Shapiro-Wilk normality test 

data: X[A == 2] 

W = 0.9384, p-value = 0.6548 

#### 水 平 3 





> shapiro.test(X[A==3]) 
Shapiro-Wilk normality test 
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data: X[A == 3] 
W = 0.8886, p-value = 0.2271 
#### 水 平 4 





> shapiro.test(X[A==4]) 
Shapiro-Wilk normality test 

data: X[A == 4] 

W = 0.9177, p-value = 0.4888 


计算 结果 表明 ， 例 7.1 中 数据 在 四 种 水 平 下 的 均 是 正 态 的 ， 
2. 方差 齐 性 检验 


方差 齐 性 检验 就 是 检验 数据 在 不 同 水 平 下 方差 是 否 相同 . 方差 齐 性 检验 最 党 
用 的 方法 是 Batlett 检验 ， 当 各 处 理 组 的 数据 较 多 时 ， 令 


1 王 
97 = Bi) ， 





j=1 
1 和 
2 一 ,一 1)S? 
Dl )S2， 
c 二 人 Dy i 
| 一 ， 





n = 人 十 172 十 …: 十 71， 


在 假设 (7.10) 成 立时 ， 统 计量 





K? 一 一 一 —7)lnS?— > —1)ln a (7.11) 
近似 服从 自由 度 为 7 一 1 的 Xx? 分布 . 当 
?>x(r-1) 或 Pf > RK}<a 
时 ,拒绝 Ho, 即 认 为 至 少 有 两 个 处 理 组 数据 的 方差 不 等 ; 否则， 认为 数据 满足 方 
差 齐 性 的 要 求 . 
R 软件 中 ， bartlett.test( 函数 提供 是 Bartlett 检验 ， 其 使 用 格式 为 
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其 中 工 是 由 数据 构成 的 向 量 或 列表 g 是 由 因子 构成 的 向 量 ， 当 x 是 列表 时 ， 
此 项 无 效 . formula 是 方差 分 析 的 公式 ， data 是 数据 框 . 其余 见 在 线 帮 助 
例 7.6 对 例 71 的 数据 作 Bartlett 方差 齐 性 检验 . 

解 : 

> bartlett.test(X“A, data=lamp) 

Bartlett test of homogeneity of variances 

data: X by A 

Bartlett’s K-squared = 5.8056, df = 3, p-value = 0.1215 
P- 值 (0.1215)> 0.05, 接受 原 假 设 Ho, 认为 各 处 理 组 的 数据 是 等 方差 的 . 

另外 ,命令 

bartlett.test(lamp$X, lamp$A) 

有 具有 相同 的 效果 . 


7.1.6 ” ”Kruskal-Wallis 秩 和 检验 


方差 分 析 过 程 需要 若干 条 件 ,，_ 检验 才能 奏效 .可 惜 有 时 候 所 采集 的 数据 
常常 不 能 满足 这 些 条 件 . 事实 上 ,即使 有 一 个 条 件 不 满足 都 会 令 我 们 陷入 乾 坑 之 
中 ,和 象 两 样本 比较 时 一 样 ， 不 妨 尝 试 将 数据 转化 为 秩 统 计量 因为 秩 统 计量 的 
布 与 总 体 分 布 无 关 ， 可 以 棱 脱 总 体 分 布 的 束 强 .在 比较 两 个 以 I RR 
使 用 的 Kruskal-Wallis 秩 和 检验 ， 它 是 对 两 个 以 上 样本 进行 比较 的 非 参 数 检 验方 
法 .实质 上 ， 它 是 两 样本 的 Wilcoxon 方法 在 多 于 两 个 样本 时 的 推广 . 

给 定 n 个 个 体 ， 用 s(s > 3) 种 处 理 方法 的 效果 比较 . 将 这 nn 个 个 体 随机 地 
分 为 s 组 ,使 第 i 组 有 ns 个 ， 并 指定 这 ni 个 个 体 接受 第 i 种 处 理 方法 的 试验 
(i 二 1,2,…, 5), 此 时 ， 3 mi 二 n. 当 试验 结束 后 ， 将 这 n 个 个 体 放 在 一 起 根据 


处 理 效果 的 优 劣 排序 得 到 各 自 的 秩 . 记 第 i 组 的 ni 个 个 体 的 秩 为 











Ra, Riz,**:, Pin,, $= 1,2,.7",8 


根据 这 些 秩 统 计量 检验 假设 
Ho : 各 处 理 方 法 的 效果 无 显著 差异 
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能 否 接 受 . 

为 了 构造 合适 的 检验 统计 量 ， 只 有 原 假 设 是 不 够 的 ,还 应 对 相应 的 备 择 假设 
有 足够 的 了 解 .。 Kruskal-Wallis 秩 和 检验 考虑 的 是 最 常见 的 一 种 备 择 假设 ， 即 各 
方法 的 处 理 效 果 若 有 差异 , 其 差异 主要 反映 在 各 组 个 体 的 处 理 效 果 的 度量 值 的 分 
离 上 . 换 句 话说 ， 若 各 方法 的 处 理 效果 有 显著 差异 ， 则 接受 各 方法 试验 的 个 体 的 
秩 之 间 有 一 个 排序 ， 其 中 某 些 方法 中 个 体 的 秩 趋 于 取 较 小 值 ， 另 一 些 方法 中 个 体 
的 秩 趋 于 取 较 大 的 值 . 下 面 针 对 此 类 备 择 假 设 构造 检验 统计 量 . 令 

Rii + Riz t+ Rin, 


Ri = OS 1 = 1,2,...,5, (7.12) 
Ti 


i 3 3 Gy 


2 一 1 7 一 | 











其 中 Ri 是 第 i 组 个 体 的 秩 的 平均 值 (i = 1 2 ……5), RR. 是 总 的 平均 值 。 奉 各 方 
法 处 理 效 果 之 间 有 显著 差异 ， 按 上 述 备 择 假设 ， 则 Ri(i = 1,2,…,s) 相互 差异 
较 大 . 反之 , 若 Ho 为 真 ， 由 于 分 组 是 随机 的 ， 则 各 Ri.(i = 1,2,…,s) 差异 应 较 
小 , 且 均 分 散在 RR. 附近 . 因此 , 可 以 用 (Bi 一 R.)? 的 加 权 和 来 度量 各 Ri 与 RR. 











5 


12 n+l1\” 
= ,{ BR, — ， 7.14 
n(n+t1) 2 2 ol 


称 天 为 Kruskal-Wallis 统计 量 . 若 Ho 不 真 ， 则 K 有 偏 大 的 趋势 ， 因 此 ， 其 拒 
绝 域 形式 为 





及 > c. 
或 者 计算 出 相应 的 P 一 值 ， 当 PP 值 小 于 相应 的 显著 性 水 平 ， 则 拒绝 原 假 设 . 
上 述 检 验方 法 称 为 Kruskal-Wallis 秩 和 检验 . 
R 软件 提供 了 Kruskal-Wallis 秩 和 检验 ,其 函数 EUSKaINESSEGJ 使 用 方 
法 如 下 





其 中 x 是 直 数 据 构 成 的 向 量 或 尺 表 g 是 由 园子 格 成 的 向量 当 x 是 列表 时 ， 
此 项 无 效 . formula 是 方差 分 析 的 公式 ， data 是 数据 框 . 其 余 见 在 线 帮 助 

例 7.7 为 了 比较 属 同一 类 的 四 种 不 同 食谱 的 营养 效果 ,将 25 只 老鼠 随机 地 分 为 
组, 每 组 分 别 是 8 只 ，4 只 ，7Y 只 和 6 只 , 各 采用 食谱 甲 、 乙 、 丙 、 丁 喂养 . 假 
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设 其 他 条 件 均 保 持 相 同 ， 12 周 后 测 得 体重 增加 量 如 表 7.8 所 示 . 对 于 aw = 0.05， 
表 7.8: 12 周 后 25 只 老鼠 的 体重 增加 量 (单位 ， 克 ) 


食谱 体重 增加 值 

中 164 190 203 205 206 214 228 257 
人 185 197 201 231 

两 187 212 215 220 248 265 281 

可 202 204 207 227 230 276 





检验 各 食谱 的 营养 效果 是 否 有 显著 差异 . 
解 : 根据 题 意 ， 原 假设 为 
Ho : 各 的 营 食 谱 养 效果 无 显著 差异 ， Hi : 各 的 营 食 谱 养 效果 有 显著 差异 . 
输入 数据 ， 调 用 kruskal .test() 函数 作 检 验 (程序 名 :exam0707.R). 
> food<-data.frame( 
x=c(164，190，203，205，206，214，228，257 ， 
185，197，201，231， 
187，212，215，220，248，265，281， 
202，204，207，227，230，276) ， 
g=factor(rep(1:4，c(8,4,7,6))) 
) 
> kruskal.test(x“g, data=food) 
Kruskal-Wallis rank sum test 
data: x by eg 
Kruskal-Wallis chi-squared = 4.213, df = 3, p-value = 0.2394 


已 一 值 = 0.2394 > 0.05, 无 法 拒绝 原 假设 ， 认 为 各 的 营 食 谱 养 效果 无 显著 差异 . 
男 两 种 写法 ， 
kruskal .test(food$x, food$g) 


A<-c(164, 190, 203, 205,206, 214, 228，257) 
B<-c(185, 197, 201, 231) 
C<-c(187，212，215，220，248，265，281) 
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D<-c(202，204，207，227，230，276) 
kruskal.test(list(A,B,C,D)) 


可 以 达到 同样 的 效果 . 
对 上 述 数 据 作 正 态 检 验 和 方差 齐 性 检验 . 
> attach(food) 
#### 水 平 1 的 正 态 性 检验 
> shapiro.test(x[g==1]) 





Shapiro-Wilk normality test 
data: x[g == 1] 
W = 0.9619, p-value = 0.828 
#### 水 平 2 的 正 态 性 检验 


> shapiro.test (x[g==2]) 





Shapiro-Wilk normality test 
data: x[g == 2] 
W = 0.9084, p-value = 0.4741 
#### 水 平 3 的 正 态 性 检验 


> shapiro.test (x[g==3]) 





Shapiro-Wilk normality test 
data: x[g == 3] 
W = 0.9523, p-value = 0.7506 
#### 水 平 4 的 正 态 性 检验 


> shapiro.test (x[g==4]) 





Shapiro-Wilk normality test 
data: x[g == 4] 
W = 0.8182, p-value = 0.08516 
#### Bartlett 方差 齐 性 检验 
> bartlett.test(x“g, data=food) 
Bartlett test of homogeneity of variances 


data: x by g 
Bartlett’s K-squared = 0.9328, df = 3, p-value = 0.8175 


7.1 单 因素 方差 分 析 415 


全 部 通过 检验 ， 因 此 ， 上 述 数 据 也 可 以 作 方差 分 析 . 
> source("anova.tab.R") 
> anova.tab(aov(x“g, data=food)) 

Df Sum Sq Mean Sq F value Pr(>F) 


8 3 3308.1 1102.7 1.378 0.2769 
Residuals 21 16803.9 800.2 
Total 24 20112.0 





其 结论 是 相同 的 ， 即 认为 各 的 营 食 谱 养 效果 无 显著 差异 . 


7.1.7 ”Friedman 秩 和 检验 





门 的 总 体 不 能 满足 正 态 性 和 方差 


的 要 求 ， 可 采用 ee 








Friedman 秩 和 检验 的 基本 思想 与 前 面 介绍 的 方法 类 似 ， 但 是 配伍 组 设计 的 
随机 化 是 在 配伍 组 内 进行 的 ,而 配伍 组 间 没 有 进行 随机 化 . 因此 在 进行 Riedman 
秩 和 检验 时 ， 是 分 别 在 每 个 配伍 组 内 将 数据 从 小 到 大 编 秩 ， 如 果 有 相同 数据 ， 则 
取 平均 秩 次 . 设 有 N 个 配伍 组 ，s 个 处 理 水 平 ， 则 不 同 配伍 组 的 秩 和 相等 ， 均 
为 时, 且 平 均 秩 次 与 总 平均 秩 次 相等 ， 都 等 于 和 ,这 正好 对 应 于 随机 区 组 
设计 的 方差 分 析 ， 由 于 配伍 组 间 没 有 进行 随机 化 ,因此 无 须 对 配伍 组 因素 进行 检 


J. 


Friedman 检验 统计 量 Q 的 计算 为 


12N 亡 1 和 
TT 8 一 二 1 7.15 
Q el (s+1) ) ( ) 
其 中 
1 
R= (Pat Rot + Ren), i= 1,2,...,5s, 


Ri 表示 第 i 个 处 理 组 第 7 个 数据 的 秩 次 . 
Friedman 秩 和 检验 的 原 假设 为 
Ho : 各 方法 的 处 理 效果 无 显著 差异 . 
其 备 择 假设 主要 考虑 各 方法 的 处 理 效果 使 各 个 体 的 效果 度量 趋 于 增加 或 减少 . 若 
Ho 不 真 时 ， 则 @ 有 偏 大 的 趋势 ， 因 此 拒绝 域 的 形式 为 


Q>c. 


六 
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或 用 相应 的 已- 值 进行 检验 ， 上 述 检 验方 法 称 为 Friedman 秩 和 检验 . 
邻 工 为 第 i 个 处 理 组 的 秩 和 ， 即 





Ti= NRi= RatRiat:.+ hin, 1=1,2,...,8, 
则 @ 又 可 以 表示 为 


Q = DT aN +t) (7.16) 


Nsts+D) 全 


式 (7.16) 更 便于 实际 计算 . 
R 软件 中 ， 冰 数 E16aman.test() 提供 了 Friedman 秩 和 检验 ， 其 使 用 方法 


是 


friedman.test(y, ...) 


friedman.test(y, groups, blocks, ...) 

friedman.test(formula, data, subset, na.action, ... 
其 中 y 是 数据 构成 的 癌 量 或 矩阵 ， groups 是 与 y 有 同样 长 度 的 向 量 ， 其 内 容 表 
示 y 的 分 组 情况 ， blocks 与 y 有 同样 长 度 的 向 量 ， 其 内 容 表 示 y 的 水 平 . 当 y 
是 矩阵 时 ， groups 和 blocks 无 效 ， 其 他 使 用 方法 见 在 线 帮助 . 
例 7.8 24 只 小 鼠 按 不 同 窝 别 分 为 8 个 区 组 ， 再 把 每 个 区 组 中 的 观察 单位 随机 分 
配 到 3 种 不 同 的 饲料 组 ， 喂 养 一 定时 间 后 ， 测 得 小 鼠 肝 中 铁 含量 ， 结 果 如 表 7.9 
所 示 .” 试 分 析 不 同 饲料 的 小 和 鼠 肝 中 的 铁 含量 是 否 不 同 . 

表 7.9: 不 同 饲料 组 小 鼠 肝 脏 中 铁 含 量 (单位 ， g/g) 








窜 别 (配伍 组 ) | 1 2 3 4 5 6 7 8 
饲料 A 1.00 1.01 1.13 1.14 1.70 2.01 2.23 2.63 
饲料 B 0.96 1.23 1.54 1.96 2.94 3.68 5.59 6.96 
饲料 C 2.07 3.72 4.50 490 6.00 6.84 8.23 10.33 


解 : 输入 数据 ， 调 用 friedman.test() 函数 (程序 名 ”exam0708.R). 
> X<-matrix( 
c(1.00，1.01，1.13，1.14，1.70，2.01，2.23，2.63， 
0.96，1.23，1.54，1.96，2.94，3.68，5.59，6.96， 


7.2 双 因 素 方差 分 析 417 


2.07，3.72，4.50，4.90，6.00，6.84，8.23，10.33) ， 
ncol=3, dimnames=list(1:8, c("A", "B", "C")) 
) 
> friedman.test(X) 
Friedman rank sum test 
data: XX 
Friedman chi-squared = 14.25, df = 2, p-value = 0.0008047 
PP 一 值 = 0.0008047 < 0.05, 拒绝 原 假设 ， 认 为 不 同 饲料 的 小 鼠 肝 中 的 铁 售 量 有 
显著 差异 . 
另 两 种 写法 ， 
x<-c(1.00, 1.01, 1.13, 1.14, 1.70, 2.01, 2.23，2.63, 
0.96, 1.23, 1.54, 1.96, 2.94, 3.68, 5.59,6.96,， 
2.07, 3.72, 4.50, 4.90, 6.00,6.84, 8.23，10.33) 
g<-gl(3,8) 
b<-gl1(8,1,24) 
friedman.test (x,g,b) 


mouse<-data.frame( 
x=c(1.00, 1.01, 1.13, 1.14, 1.70, 2.01,，2.23，2.63, 
0.96, 1.23, 1.54, 1.96, 2.94, 3.68, 5.59,6.96, 
2.07，3.72，4.50，4.90，6.00，6.84，8.23，10.33) ， 
g=g1(3,8) ， 
b=g1 (8, 1,24) 
) 


friedman.test(x“g|lb, data=mouse) 


可 以 达到 同样 的 效果 . 


7.2” 双 因素 方差 分 析 


在 大 量 的 实际 问题 中 ,需要 考虑 影响 试验 数据 的 因素 多 于 一 个 的 情形 . 例如 
在 化 学 试验 中 , 几 种 原料 的 用 量 , 反应 时 间 , 温度 的 控制 等 都 可 能 影响 试验 结果 ， 
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这 就 构成 多 因素 试验 问题 . 本 节 讨 论 双 因素 试验 的 方差 分 析 . 
例 7.9 在 一 个 农业 试验 中 ， 考 虑 四 种 不 同 的 种 子 品 种 A1，A2，A3,A4 和 三 种 不 
同 的 施肥 方法 Bl，Bo，Bs 得 到 产量 数据 如 表 7 .10 所 示 (单位 kg). 试 分 析 种 


表 7.10: 农业 试验 数据 


Bi B» Bs 
41 325 292 316 
42 317 310 318 
43 310 320 318 
44 330 370 365 





子 与 施肥 对 产量 有 无 显著 影响 ? 

这 是 一 个 双 因 素 试验 、 因 素 4( 种 子 ) 有 四 个 水 平 ， 因 素 B( 施 肥 ) 有 三 个 水 
平 . 我 们 通过 下 面 的 双 因 素 方差 分 析 法 来 回答 以 上 问题 . 

设 有 A,B 两 个 因素 ， 因 素 4 有 7 个 水 平 4 42,…, 4, ; 因素 有 s 个 
水 平 Bi1, Bo, :…, B;. 





7.2.1 不 考虑 交互 作用 


1. 数学 模型 
在 因素 A, B 的 每 一 种 水 平 组 合 (hi, B;) 下 进行 一 次 独立 试验 得 到 观测 值 





表 7.11: 无 重复 试验 的 双 因 素 方差 分 析 数 气 


Bi Bb» Bs 
41 X11 TL12 V1s 
A V21 X22 V2s 
A; Trl Tr2 Trs 





假定 Ti ~ N(pi,0°), 2 一 12 7 7 一 1123， 且 各 Tij 相互 独 江 . 不 
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考虑 两 因素 间 的 交互 作用 ， 因 此 数据 可 以 分 解 为 
Tij = H+ it bj; ei 2 j= 1,2,..",5, 
E 订 Cs N(0,o7), 且 各 E 订 相互 独立 ， (7.17) 


2 2 -0 


其 中 a au 为 因素 4 的 第 i 个 水 平 的 效应 ， 6; 为 因 


=1 j=1 


素 B 的 第 7 个 水 平 的 效应 
2. 方差 分 析 


在 线性 模型 (7.17) 下 ， 方 差分 析 的 主要 任务 是 : 系统 分 析 因 素 A 和 因素 B 
对 试验 指标 影响 的 大 小 ， 因 此 ， 在 给 定 显著 性 水 平 a 下 ， 提 出 如 下 统计 假设 : 
对 于 因素 A,“ 因 素 A 对 试验 指标 不 显著 ”等 价 于 





Hoi : Ql Q2 RD OQr 0. 





对 于 因素 B,“ 因 素 B 对 试验 指标 不 显著 ”等 价 于 








Ho: P= = = P=0. 


双 因 素 方差 分 析 与 单 因素 方差 分 析 的 统计 原理 基本 相同 , 也 是 基于 平方 和 分 
解 公式 





ST 一 9P 十 094 十 9P， 


其 中 
到 总 
_\9 一 
ST = (Zi — 2), £ = > y 六 六 
i=1 7 一 1 es 1 
T 
_\9 到 ; 
SA = 5 > (zi. 一 丈 )” Zz; = Ry C2 
=i j=1 


1 
一 _\92 = 和 
DB 一 (元 一 元 ) )》 .i = 本 一 Tij) 了 7 三 二 二 2 es S， 


了 一 
到 
= 三 二 2 
Sp = > (他 二 2) 
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这 里 57 为 总 离 差 平方 和 ， Ss 为 误差 平方 和 ， S4 是 由 因素 4 的 不 同 水 平 所 引 
起 的 离 差 平方 和 ( 称 为 因素 4 的 平方 和 ). 类 似 地 ， SB 称 为 因素 B 的 平方 和 . 
可 以 证 明 当 Hoi 成 立时 ， 
SA/o” > X2(r 1), 
且 与 Sp 相互 独立 ， 而 
Sp/o” mw Xl(r=1)(8=1)), 
于 是 当 有 ol 成 立时 ， 
Sa/(r = 1) 
a ~ F(r-1,(r—m1)(s—1)). 
类 似 地 ， 当 Ho 成 立时 ， 

SB/(s = 1) 
Sg/[(7 — 1)(s— 1)] 
分 别 以 Fa, Fp 作为 Fo Po 的 检验 统计 量 ， 将 计算 结果 列 成 方差 分 析 表 ， 如 表 
7.12 所 示 . 


Fp = ~F(s—1,(r—m1)(s—1)). 


表 7.12: 双 因 素 方差 分 析 表 


方差 来 源 
因素 A M54 = 六 
因素 B RN 
误差 MDE = ey 
总 和 





3. 方差 分 析 表 的 计算 

仍然 用 EGR 函数 计算 双 因 素 方差 分 析 表 7.12 中 的 各 种 统计 旱 . 

例 7.10 ( 续 例 7.9) 对 例 7.9 的 数据 作 双 因素 方差 分 析 ， 试 确定 种 子 与 施肥 对 产 
量 有 无 显著 影响 ? 

解 : 输入 数据 ， 用 aov() 函数 求解 .与 单 因 素 方差 分 析 相 同 ， summary() 
无 法 给 出 总 和 行 ， 这 里 用 自 编 的 函数 anova.tab() 得 到 方差 分 析 表 (程序 名 : 
exam0710 .BR). 

#### 用 数据 框 的 形式 输入 数据 
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> agriculture<-data.frame( 
Y=c(325，292，316，317，310，318， 
310，320，318，330，370，365) ， 
A=gl1 (4,3), 
B=g1(3,1,12) 
) 


#### 作 双 因素 方差 分 析 

> agriculture.aov <- aov(Y ~ A+B, data=agriculture) 
#### 调用 自 编 函 数 anova.tab(), 显示 计算 结果 

> source("anova.tab.R"); anova.tab(agriculture.aov) 


Df Sum Sq Mean Sq F value Pr(>F) 


A 3 3824.2 1274.7 5.2262 0.04126 * 
B 2 162.5 81.2 0.3331 0.72915 

Residuals 6 1463.5 243.9 

Total 11 5450.3 

Signif. codes: 0 ’***? 0.001 ?kk 0.01 ?+ 0.05 ?.”0.1 ”1 


根据 p 值 说 明 不 同 品 种 (因素 A) 对 产量 有 显著 影响 ， 而 没有 充分 理由 说 明 
施肥 方法 (因素 B) 对 产量 有 显著 的 影响 . 

事实 上 在 应 用 模型 (7.17) 时 ， 遵 循 着 一 种 假定 ， 即 因素 4, B 对 指标 的 效应 
是 可 以 全 加 的 . 而 且 认 为 因素 4 的 各 水 平 效应 的 比较 ， 与 因素 B 在 什么 水 平 无 
关 ， 这 里 并 没有 考虑 因素 4, B 的 各 种 水 平 组 合 (4;, B;) 的 不 同 给 产量 带 来 的 影 
啊 ， 而 这 种 影响 在 许多 实际 工作 中 是 应 该 给 予 足 够 的 重视 的 ， 这 种 影响 被 称 为 交 
互 效 应 .这 就 导出 下 面 所 要 讨论 的 问题 . 


7.2.2 ”考虑 交互 作用 


1. 数学 模型 


设 有 两 个 因素 4 和 B, 因素 4 有 7 个 水 平 4 A2,…, 4,; 因素 已 有 s 个 水 
平 Bi, Bo,…, Bs, 每 种 水 平 组 合 (4;, B;) 下 重复 试验 t 次 . 记 第 天 次 的 观测 值 为 
zijp; 将 观测 数据 列表 ， 如 表 7.13 所 示 . 
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表 7.13: 双 因 素 重复 试验 数据 


TCT1lslX1s2** “V1st 


水 2s142s2 * ** V2st 


尼 rs1Yrs2 ** Wrst 





zig ~ Na i=1,2,...,7; j=1,2,...,s; k=1,2,...,t, 


各 Tijk 相互 独立 ， 所 以 ， 数 据 可 以 分 解 为 





Tijk = H+ it bs; 0i; + Eajk, 
Eijk A N(0, 人 且 各 Eijk 相互 独立 ， (7.18) 
pe le CE 0 A 


其 中 oa 为 因素 4 的 第 ;个 水 平 的 效应 ， 为 因素 B 的 第 7 个 水 平 的 效应 . 6i; 
表示 A; 和 Bj; 的 交互 效应 ， 因 此 有 


Tr 


] S 7 S 到 5S 
Hh= 2 Ai > 六 二 0 让 
i=1 j=1 i=1 j=1 


i=1 j=1 











2. 方差 分 析 

此 时 判断 因素 4, B 及 交互 效应 的 影响 是 否 显 著 等 价 于 检验 下 人 列 假设 
万 01 : al 一 az 一 … :一 ar 三 0， 
Lo2 : D1 = 2 应 = 人 (0， 








万 03 : 0i; = 0， 1 = 1,2,...,7, 7 一 1 ,25. 
在 这 种 情况 下 ， 方 差分 析 法 与 前 两 节 的 方法 类 似 ， 有 下 列 计算 公式 ; 


ST 一 OP 十 94 十 9p 十 94xP， 
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其 中 
7 S t 7 S t 
ST = 六 人 Z 二 5 Tijk, 
i=1 j=1 k=1 rst 1 j=1 k=1 
7 S 6 
Sp = >》 >》 >》 (vin — zs), 
i=1 j=1 k=1 
] 
i 了 Dig he Eg 
k=1 
r S t 
SA = st 》 (zi. — 1)», Xi.. 一 全、 Tijk, 1 = 1,2,..,7, 
i=1 . j=1 k=1 
S 7 & 
3 -> Tijk, 1 = 1,2,...,s, 
j=1 , i=1 k=1 
SAxB 一 人 Vi Vj. 十 五 )”， 
i=l1 j=1 


这 里 57 为 总 离 差 平方 和 ， SE 为 误差 平方 和 ， S54 为 因素 4 的 平方 和 ， SB 为 
因素 B 的 平方 和 和， 54xB 为 交互 效应 平方 和 可 以 证 明 : 当 Hoi 成 立时 ， 


Sa/(r—1) 
Fa = ~F(r—1,rs(t—1)). 
当 Hos 成 立时 ， 
ost 轩 ~F(s—1,rs(t— 
和 i F(s—1,rs(t— 1)). 
当 五 os 成 立时 ， 
0 


Sp/[rs(t — 1)| 


分 别 以 Fa, fp, FaxB 作为 Fo Hoz,， Hos 的 检验 统计 量 ， 将 检验 结果 列 成 方差 
分 析 表 ， 如 表 7.14 所 示 . 


例 7.11 研究 树种 与 地 理 位 置 对 松树 生长 的 影响 ， 对 四 个 地 区 的 三 种 同龄 松树 的 
直径 进行 测量 得 到 数据 如 下 表 7.15 所 示 (单位 cm) 41 42,43 表示 三 个 不 
同 树种 ， B1, Bo, Bs, B4 表示 四 个 不 同 地 区 ， 对 每 一 种 水 平 组 合 ， 进 行 了 5 次 测 
量 ， 对 此 试验 结果 进行 方差 分 析 ， 
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因素 B 


交互 效应 
AxB 


误 差 





解 : 用 数据 框 的 形式 输入 数据 ， 调 用 aov() 
坚 序 名 : 


函数 显示 方差 分 析 表 ( 程 


> tree<-data.frame( 

Y=c(23，25，21， 
16，19，13， 
28，30，19， 
19，18，19， 
18，15，23， 
19，23，22， 

A=g1(3,20 ,60) ， 

B=gl1(4,5,60) 


SAxB 


~ CD)(s-D) 


20 
27 
26 
29 
22 
22 


exam0711.R). 


15 ， 
24， 
22， 
25 ， 
10 ， 
13 ， 


20 ， 
20 ， 
26 ， 
26 ， 
245 
225 


17 ， 
21， 
24， 
26 ， 
25 ， 
13 ， 


11， 
18 ， 
21， 
28, 
12 ， 
12 ， 


21 ， 
24， 
26 ， 
23 ， 
22， 
19) ， 





二 全 


18 


28 


12 


函数 计算 ， 再 调用 anova.tab() 
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) 
> tree.aov <- aov(Y ~ A+B+A:B, data=tree) 
> source('"anova.tab.R'"); anova.tab(tree.aov) 


Df Sum Sq Mean Sq F value Pr(>F) 


A 2 352.53 176.27 8.9589 0.000494 *** 

B 3 87.52 29.17 1.4827 0.231077 

A:B 6 71.73 11.96 0.6077 0.722890 

Residuals 48 944.40 19.67 

Total 59 1456.18 

Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’” 0.05 ”.”0.1” ”1 


可 见 在 显著 性 水 平 a = 0.05 下 ,树种 (因素 A) 效应 是 高 度 显 闭 的 ， 而 位 置 
(因素 B) 效应 及 交互 效应 并 不 显著 . 


7.2.3 ”方差 齐 性 检验 


与 单 因 素 方差 分 析 相 同 ,对 于 双 因 素 方 差分 析 , 数据 也 应 满足 正 态 性 和 方差 
齐 性 的 要 求 . 
例 7.12 检验 例 7.11 中 的 数据 对 于 因素 4 和 因素 BB 是 否 是 正 态 的 ? 是否 满足 
方差 齐 性 的 要 求 ? 

解 : 仍然 采用 W 正 态 检验 检验 数据 的 正 态 性 ， 用 Bartlett 检验 检验 方差 齐 
性 (程序 名 ， exam0712 .BR). 
> attach(tree) 
#### 因素 A 水 平 1 的 正 态 性 检验 
> shapiro.test (Y[A==1]) 








Shapiro-Wilk normality test 
data: Y[A == 1] 
W = 0.9759, p-value = 0.8703 
#### 因素 A 水 平 2 的 正 态 性 检验 
> shapiro.test(Y[A==2]) 





Shapiro-Wilk normality test 
data: Y[A == 2] 
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W = 0.9439, p-value = 0.2837 
#### 因素 A 水 平 3 的 正 态 性 检验 
> shapiro.test(Y[A==3]) 





Shapiro-Wilk normality test 
data: Y[A == 3] 
W = 0.9106, p-value = 0.06552 
#### 因素 B 水 平 1 的 正 态 性 检验 
> shapiro.test(Y[B==1]) 





Shapiro-Wilk normality test 
data: YI[B == 1] 
W = 0.9835, p-value = 0.988 
#### 因素 B 水 平 2 的 正 态 性 检验 
> shapiro.test(Y[B==2]) 





Shapiro-Wilk normality test 
data: YI[B == 2] 
W = 0.8537, p-value = 0.01963 
#### 因素 B 水 平 3 的 正 态 性 检验 
> shapiro.test(Y[B==3]) 





Shapiro-Wilk normality test 
data: Y[B == 3] 
W = 0.9483, p-value = 0.4986 
#### 因素 BB 水 平 4 的 正 态 性 检验 
> shapiro.test(Y[B==4]) 





Shapiro-Wilk normality test 
data: YI[B == 4] 
W = 0.9452, p-value = 0.4521 
#### 关于 因素 A 的 Bartlett 方差 齐 性 检验 
> bartlett.test(Y“A, data=tree) 
Bartlett test of homogeneity of variances 
data: YbyA 
Bartlett’s K-squared = 0.59, df = 2, p-value = 0.7445 
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#### 关于 因素 B 的 Bartlett 方差 齐 性 检验 
> bartlett.test(Y“B, data=tree) 
Bartlett test of homogeneity of variances 
data: Y by B 
Bartlett’s K-squared = 2.0436, df = 3, p-value = 0.5634 
数据 只 对 因素 B 的 第 二 个 水 平 不 满足 正 态 性 要 求 ， 其 余 均 满足 ， 对 于 因素 
A 和 因素 B 均 满足 方差 齐 性 要 求 . 


7.3” 正 交 试验 设计 与 方差 分 析 


前 面 介绍 的 是 一 个 因素 或 两 个 因素 的 试验 ， 由 于 因素 较 少 ， 可 以 对 不 同 因素 
的 所 有 可 能 的 水 平 组 合 做 试验 , 这 种 称 为 全 面试 验 ， 当 因素 较 多 时 ， 虽然 理论 上 
仍 可 采用 前 面 的 方法 进行 全 面试 验 后 再 做 相应 的 方差 分 析 ， 但 是 在 实际 中 有 时 
会 遇 到 试验 次 数 太 多 的 问题 . 如 三 因素 四 水 平 的 问题 ， 所 有 不 同 水 平 的 组 合 有 
4 = 64 种 ， 在 每 一 种 组 合 只 进行 一 次 试验 ， 也 需要 做 64 次 . 如 果 考 虑 更 多 的 因 
素 及 水 平 ， 则 全 面试 验 的 次 数 可 能 大 得 惊人 .因此 在 实际 应 用 中 ， 对 于 多 因素 做 
全 面试 验 是 不 现实 的 . 于 是 可 以 考虑 是 否 选择 其 中 一 部 分 组 合 进 行 试验 ， 这 就 要 
用 到 试验 设计 方法 选择 合理 的 试验 方案 , 使 得 试验 次 数 不 多 , 但 也 能 得 到 比较 满 
总 的 斥 采 ， 





7.3.1 “用 正 交 表 安 排 试验 





正 交 表 是 一 系列 规格 化 的 表格 ， 每 个 表格 都 有 一 个 记号 ， 如 
") 和 正 交 表 L 








从 表 7.16 可 见 ， Za(39 有 9 行 ， 4 列表 中 由 数字 1, 2, 3 组 成 ， Ls(2") 
有 8 行 _7 列表 中 数字 由 1, 2 组 成 .. 

用 正 交 表 安排 试验 时 , 根据 因素 和 水 平 个 数 的 多 少 以 及 试验 工作 量 的 大 小 来 
考虑 用 哪 张 正 交 表 ， 下 面 举例 说 明 . 
例 7.13 为 提高 某 种 化 学 产品 的 转化 率 ( 匈 ), 考虑 三 个 有 关 因 素 : 反应 温度 A(%CO)， 
反应 时 间 B(min) 和 用 碱 量 C(%). 各 因素 选取 三 个 水 平 ， 如 表 7 17 所 示 . 如 
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Lo(3) 表 
列 号 
1 2 3 4 


WD DD 
WP PF co 玉 
居中 cc Lc 
Pei Fo om 





3 
反应 温度 4("C) 90 
反应 时 间 B(min) 150 
用 碱 量 C(%) 7 


好 的 生产 方案 ? 








计算 各 种 因素 和 水 平 下 转化 率 的 平均 值 (尽管 计算 非常 简单 ， 但 为 了 便于 推 
广 起 见 ， 还 是 用 及 软件 进行 计算 ). 
用 数据 框 形式 输入 转化 率 试验 的 正 交 表 数据 , 并 计算 各 个 因素 水 平 下 的 平均 








值 (程序 名 :， exam0713 .R). #### 输入 数 j 
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表 7.18: 转化 率 试验 的 正 交 表 





试验 号 反应 时 间 B | 催化 剂 含量 C | 转化 率 


1 5 (1) 31 
2 6 (2) 54 
3 7 (3) 38 
4 6 (2) 53 
5 7 (3) 49 
6 5 (1) 42 
7 (3) 57 
8 5 (1) 62 
9 6 (2) 64 


> rate<-data.frame( 
A=g1 (3 ,3), 
B=g1(3,1,9), 
C=factor(c(1,2,3,2,3,1,3,1,2)), 
Y=c(31, 54, 38, 53, 49, 42, 57, 62,，,64) 
) 
#### 计算 各 因素 的 均值 
> K<-matrix(0, nrow=3, ncol=3, dimnames=list(1:3, c("A",'"B","C"))) 
> for (j in 1:3) 
for (i in 1:3) 
K[i,j]<-mean(rate$Y [rate[j]==i]) 
#### 显示 计算 结果 
>K 
A BC 
1 41 47 45 
2 48 55 57 
3 61 48 48 
用 A, B, C 三 列 的 值 Ki Ko, Ks 作 图 ， 其 命令 如 下 : 


> plot(as.vector(K), axes=F, xlab="Level", ylab="Rate") 
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Xiark<-C[NA IIATT "M2", Sn "Bl", "Ba", 0B30 "Ct", "G2", "C8", NA) 
axis(1,0:10,1labels=xmark) 

axis(2,4*10:16) 

axis(3,0:10,1labels=xmark) 

axis(4,4*10:16) 

lines(K[,"A"]); lines(4:6, K[,'"B"]); lines(7:9,K[,"C"]) 


图 形 如 图 7.3 所 示 . 


V VV VvV VvV VvV YYV 





OO _| |_ oo 
CD CD 
CD _| | Co 
LOD LOD 
QI J | A 
0 LO LO 
加 
Cr 
oo -| L oo 
" i 
寺 _| = 2 
I 











Al A2 A3 B1 B2 B3 C1 C2 C3 


Level 


图 7.3: 三 因素 与 指标 关系 数 


从 图 7.3 可 以 看 出 : 
(1) 温度 越 高 其 转化 率 越 高 ， 以 90"C (43) 最 好 ， 还 应 探索 更 高 温度 的 情况 ; 


(2) 反应 时 间 以 120 分 钟 (Bo) 转化 率 最 高 ; 

(3) 用 碱 量 以 6%(C2) 转化 率 最 高 . 

综合 起 来 ， A3B2C2 可 能 是 较 好 的 工艺 条 件 . 但 是 ， 我 们 发 现 这 个 工艺 条 件 
并 不 在 九 次 试验 中 ,， 它 是 否 好 还 要 通过 实践 来 检验 . 因此 需要 对 于 A3B2C2 再 作 
一 次 试验 , 得 到 相应 的 转化 率 (74%), 并 与 最 好 的 试验 (第 9 号 试验 ，A3B3C2) 进 
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行 比较 , 它 的 转化 率 为 64%, 所 以 可 以 说 明 选 出 的 工艺 是 比较 好 的 . 可 以 证 明 , 当 
因素 之 间 没 有 相互 作用 时 ， 用 这 种 方法 选 出 的 工艺 条 件 就 是 全 面试 验 中 最 好 的 . 





7.3.2 ” 正 交 试验 的 方差 分 析 


对 于 例 7.13 的 试验 ， 如 果 用 交叉 分 组 全 面试 验 需 27 次 ,而 正 交 试验 只 用 了 
9 次 ， 自 然 要 问 ， 这 9 次 试验 是 否 能 大 体 上 反映 27 次 试验 的 结果 ? 如 果 能 反映 
又 是 为 什么 ? 

首先 假定 三 个 因素 之 间 没 有 交互 作用 ， 9 次 试验 的 结果 以 yi,y2,…, ye 表 
示 ， 根 据 一 般 线 性 模型 的 假定 ， 数 据 可 分 解 为 












































YH 二 人 十 ai 十 页 十 cl 十 El 
V2 三 /十 al1 十 bo 十 co 十 2， 
y3 三 /十 ai 十 0 十 cs 十 =3， 
y4 = /十 aa 十 Di 十 co 十 4， 
ys = /十 aa 十 总 十 ca 十 E5， 
ye 一 /十 az 十 加 十 cl 十 6， 
yr7 三 HW 二 a3 十 bi 十 C3 十 Ee7， 
Ys 三 HW 二 a3 二 b+ci+es, 
V9 三 人 二 a3 十 03 十 C2 十 6&9， 


3 3 3 
其 中 > 了 ai== b= c==0,e: ~ N(0,02) (1==1,2,…,9), 且 相互 独立 . 
i=1 j=1 k=1 
对 此 模型 考虑 如 下 三 种 假设 的 检验 问题 : 
Ho : al 一 ao = a3=0, 
万 02 : b1 = b» = b3 = 0, 
Hos : cl 一 c2 = C3=0. 
大 有 ol 成 立 ， 则 说 明 因 素 A 的 三 个 水 平 对 指标 y 的 影响 无 显著 差异 . 类似 地 ， 
知 有 Hoz( 或 Hos) 成 立 ， 则 表示 因素 B( 因 素 C) 的 三 个 水 平 对 指标 y 的 影响 无 显著 
差异 . 


类 似 于 单 因 素 和 双 因 素 方法 ， 对 于 正 交 试验 也 可 以 导出 相应 的 方差 分 析 表 
(具体 过 程 可 见 其 他 的 统计 书籍 ), 其 表格 形式 如 表 7.19 所 示 . 
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表 7.19: 正 交 试验 设计 的 方差 分 析 表 


方差 来 源 
因素 1 
因素 2 


因素 m 
误 差 





在 表 7.19 中 ， 7 为 试验 总 次 数 ， m 为 因素 个 数 ， a 为 每 个 因素 的 试验 水 
平 ，7 为 每 个 水 平 的 试验 次 数 ， 即 ”= ra. P- 值 与 前 面 方差 分 析 表 中 的 意义 是 
相同 的 ， 即 当 < a, 则 认为 因素 i 有 显著 差异 . 


例 7.14 ( 续 例 7.13) 对 正 交 试验 进行 方差 分 析 . 
解 : 直接 用 R 软件 求解 . 


> rate.aoVv<-aov(Y-A+B+C，data=Trate) 
> Source("anova.tab.R"); anova.tab(rate.aov) 


Df Sum Sq Mean Sq F value Pr(C>F) 


A 2 618 309 34.3333 0.02830 * 

B 2 114 57 6.3333 0.13636 

C 2 234 117 13.0000 0.07143 . 

Residuals 2 18 9 

Total 8 984 

Signif. codes: 0 ’***’ O.001 ’**’” O.01 ’*’” 0.05 ”.”0.1 ”?”1 


从 计算 结果 可 以 看 到 ， 转 化 率 对 于 因素 A 很 显著 ， 所 以 因素 A 水 平 的 选取 
很 重要 ， 转 化 率 对 因素 C 的 显著 ， 因此， 因素 C 水 平 的 选取 也 重要 ， 因 素 B 不 
显著 ， 所 以 为 了 节约 能 源 ， 可 以 选择 最 短 的 反映 时 间 ， 因 此 ， 工 艺 条 件 可 以 选择 
As3B1C,. 
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7.3.3 ”有 交互 作用 的 试验 
在 作 双 因素 方差 分 析 时 ， 讲 到 因素 之 间 有 搭配 作用 ， 这 个 搭配 作用 被 称 为 交 
互 作用 .实际 上 ， 在 正 交 试 验 设计 中 ， 也 可 以 分 析 因 素 之 间 交 互 作用 的 影响 . 
还 是 用 例子 说 明 问 题 . 
例 7.15 在 梳 棉 机 上 纺 粘 锦 混 纺 纱 ， 为 了 提高 质量 ， 选 了 三 个 因素 ， 每 个 因素 两 
个 水 平 ， 如 表 7.20 所 示 ， 三 个 因素 间 可 能 有 交互 作用 ， 要 设计 一 个 试验 方案 . 


表 7.20: 纺 粘 锦 混纺 纱 的 试验 因素 水 平 表 








未 水 
1 2 
金属 针 布 (A) 进口 的 国产 的 
产量 水 平 (B) 6 千克 10 千克 
锡 林 速 度 (CO) 238 转 / 分 320 转 / 分 





解 : 首先 设计 表 头 . 这 是 一 个 三 因素 两 水 平 的 试验 , 用 正 交 表 Ls(2") 比较 合 
适 ( 见 表 7.16). 对 于 7s(2 ) 还 有 一 个 各 列 间 的 交互 作用 表 ， 如 表 7.21 所 示 . 





表 7.21: Zs(27) 二 列 间 的 交互 作用 表 


列 呈 列 

2 3 4 5 6 7 
1 3 2 5 4 7 6 
2 1 6 7 4 5 
3 7 6 5 4 
4 1 2 3 
5 2 3 
6 1 





如 果 将 A 放 在 第 1 列 ，B 放 在 第 2 列 ， 查 表 7.21 的 第 “1” 行 , 第 “2” 列 ， 
对 应 的 数 是 3, 即 第 3 列 反映 了 4 x B. 如 果 把 A 放 在 第 3 列 ，B 放 在 第 5 列 ， 
查 表 7.21“3” 行 “5” 列 ， 对 应 的 数 是 6, 即 4 x B 在 第 6 列 . 这 样 一 个 表 对 于 如 
何 安排 试验 是 很 重要 的 . 
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通过 分 析 ， 我 们 将 A 放 在 第 1 列 ， B 放 在 第 2 列 ， 则 第 3 列表 示 4 x B， 
C 放 在 第 4 列 ， 则 第 5 列表 示 4 x C, 第 6 列表 示 B x C0, 第 7 列 是 空 列 . 然后 
再 将 8 次 试验 结果 棉 结 粒 数 放 在 第 8 列 上 ( 见 表 7.22). 


表 7.22: 纺 粘 锦 混纺 纱 试验 的 正 交 表 
列 号 一 棉 结 
anorniaraipcarn 


1 1 1 1 1 1 0.30 
2 1 2 2 2 2 0.35 
3 2 1 1 2 2 0.20 
4 2 2 2 1 1 0.30 
5 2 1 2 1 2 0.15 
6 2 1 2 1 0.50 
7 1 1 2 2 1 0.15 
8 1 2 1 1 2 0.40 





做 方差 分 析 . 用 数据 框 输入 数据 ， 用 aov() 函数 做 方差 分 析 ， 用 自 编 的 函数 
anova.tab() 列 出 方差 分 析 表 (程序 名 :exam0715 .BR). 
> cotton<-data.frame( 
Y=c(0.30, 0.35, 0.20, 0.30, 0.15, 0.50,0.15,0.40)，, 
A=g1(2,4), B=g1(2,2,8), C=g1(2,1,8) 
) 
> cotton.aov<-aov(Y”A+B+C+A:B+A:C+B:C, data=cotton) 
> source('"anova.tab.R'"); anova.tab(cotton.aov) 


Df Sum Sq Mean Sq F value Pr(>F) 


A 1 0.000313 0.000313 0.1111 0.7952 
B 1 0.007812 0.007812 2.7778 0.3440 
C 1 0.070313 0.070313 25.0000 0.1257 
A:B 1 0.000312 0.000312 0.1111 0.7952 
A:C 1 0.025313 0.025313 9.0000 0.2048 
B:C 1 0.000313 0.000313 0.1111 0.7952 
Residuals 1 0.002812 0.002812 
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Total 7 0.107188 
de ee ed 
责任 过 一 此 分析。 对 于 因素 人 因素 A:B B:C, 它们 的 工 值 很 小 
数 更 不 显著 ah 所 以 在 











> cotton.new<-aoVv(Y-B+C+A:C，data=cotton) 
> anova.tab(cotton.new) 


Df Sum Sq Mean Sq F value Pr(>F) 


B 1 0.007812 0.007812 6.8182 0.079605 . 

C 1 0.070313 0.070313 61.3636 0.004332 ** 

C:A 2 0.025625 0.012812 11.1818 0.040678 * 

Residuals 3 0.003437 0.001146 

Total 7 0.107187 

Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’” 0.05 ”.”0.1 ” ”1 





从 结果 可 以 看 出 ， 最 显著 的 是 因素 C, 其 次 是 交互 效应 AxC, 最 后 是 因素 B. 屠 
么 我 们 选择 哪些 因素 作为 最 后 的 结果 呢 ? 还 需要 计算 各 个 因素 下 的 均值 . 为 方便 
起 见 ， 先 编写 一 个 函数 ， 将 各 因素 的 交互 情况 计算 出 来 . 
> ab<-function(x,y){ 

n<-length(x); z<-rep(0,n) 

for (i in 1:n) 

if (x[i]==y[i]){z[i]<-1} else{z[i]<-2} 
factor (z) 
} 

> cotton$AC<-ab(cotton$A, cotton$C) 


再 计算 各 因素 的 均值 . 
> K<-matrix(0, nrow=2, ncol=4, 
dimnames=list(1:2, c("A", "B", "C", "AC'"))) 
> for (j in 2:5) 
for (i in 1:2) 
K[i,j-1]<-mean(cotton$Y[cotton[j]==i]) 
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A B © AC 
1 0.2875 0.3250 0.2000 0.3500 
2 0.3000 0.2625 0.3875 0.2375 

因为 因素 C 最 显 铸 ， 所 以 先 选 择 因素 C, 选 因素 C 用 第 1 个 水 平 (因为 棉 结 
粒 数 越 少 越 好 ), 因素 AxC 次 显著 ， 所 以 再 选择 因素 AC, 应 该 是 第 2 个 水 平 . 由 
于 因素 C 已 选择 第 1 个 水 平 ， 所 以 因素 A 只 能 选择 第 2 个 水 平 (注意 ， 这 与 直 
接 选 择 因素 A 是 矛盾 的 ， 这 是 因为 棉 结 粒 数 关 于 因素 AC 是 显著 的 ， 而 关于 因 
素 A 是 不 显著 的 ， 所 以 要 从 因素 AC 来 考虑 问题 ). 最 后 ， 选 择 因 素 B, 应 是 第 2 
个 水 平 . 最 后 结果 为 A2B2C1. 即 较 好 的 生产 方案 选择 为 ， 金 属 针 布 是 国产 的 ; 
产量 是 10 干 克 ; 锡 林 速 度 为 238 转 / 分 . 








7.3.4 ”有 重复 试验 的 方差 分 析 

类 似 前 面 的 分 析 ， 对 于 正 交 试验 设计 也 可 以 考虑 带 有 重复 试验 的 数据 , 这 里 
仅 用 一 个 例子 说 明 . 
例 7.16 在 研究 四 种 药物 对 淡色 库 蚁 的 杀 灭 作用 的 试验 中 ,每 种 药物 取 三 水 平 ， 
试验 安排 如 表 7.20 所 示 .， 试 采取 Le(3 ) 正 交 表 ， 在 不 考虑 交互 作用 ， 相 同 斌 


表 7.23: 对 淡色 库 蚊 杀 灭 作用 试验 的 试验 因素 水 平 表 


水 平 
1 2 3 
A 2% 4% 5% 
B 0% 1% 2% 
C 0% 1% 3% 
D 0% 1% 3 





了 验 条 件 下 均 做 4 次 重复 试验 下 ， 检 验 四 种 药物 对 淡色 库 蚁 杀 灭 作用 有 无 差别 ， 
试 选择 较 好 灭 蚁 方案 ， 

解 : 用 Lo(3”) 正 交 表 列 出 表 头 ， 并 将 试验 结果 填 在 表 后 的 各 列 , 

用 数据 框 输入 数据 ， 再 作 方 差分 析 . 然后 计算 各 因素 情况 下 对 淡色 库 蚊 的 
50% 击 倒 时 间 平 均值 . 


表 7.24: 四 种 对 淡色 库 蚊 的 50% 击 倒 时 间 的 正 交 试验 表 


试验 号 


上 一 


‘OO 0 ~ GD OO 本 WW 


1 
1 
1 
2 
2 
2 
3 
3 
3 


7.3 正 交 试验 设计 与 方差 分 析 


OO OP 于 OO ~ 


DO OO- 





> mosquito<-data.frame( 
A=gl1(3，12) ，B=g1(3,4,36) ， 
C=factor(rep(c(1,2,3,2,3,1,3,1,2) ,rep(4,9)) ) ， 
D=factor(rep(c(1,2,3,3,1,2,2,3,1) ,rep(4,9))) ， 
3.73 291， 11.85. 
0.18，3.87， 3.18, 
3.71， 4.29, 3.89, 
7.41, 7.79, 7.38, 


Y=c( 9.41, 
10.67， 
4.20， 
7.62， 
8.09， 
) 


7.19， 
10.70， 
5.72， 
7.01， 
8.17， 


10.73， 
10.91, 1 
4.58， 
6.83， 
8.14， 


OO OO 0 搬 


9.41 
11.91 
10.67 

3.87 

4.20 

4.29 

7.62 

7.79 

8.09 


7.49) 


50% 击 倒 时 间 /As 
7.19 10.73 
11.85 11.00 
10.70 ”10.91 
3.18 3.80 
5.72 4.58 
3.89 3.88 
7.01 6.83 
7.38 7.56 
8.17 8.14 


> mosquito.aov<-aov(Y“A+B+C+D, data=mosquito) 


> source("anova.tab.R"); anova.tab(mosquito.aov) 


Df 
2 


2 
2 
Residuals 27 
Total 35 


品 QQ 呈 


Sum Sq Mean Sq F value 
77.4884 6.504e-12 *** 
6.1280 0.006393 ** 
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.310 
15. 
13. 

5 . 
35 . 
270 . 


920 
297 
021 
072 
619 


100.655 
7.960 
6.648 
2.510 
1.299 


5.1182 0.013042 * 


Pr (>F) 


1.9326 0.164282 


11.00， 
3.80， 
3.88， 
7.56， 


3.73 
11.72 
10.18 
4.85 
3.71 
4.71 
7.41 
6.28 
7.49 


11.72， 
4.85， 
4 
6.28， 
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Signif. codes: 0 ’***’ O.001 ’**’ O.01 ’*’” 0.05 ”.”0.1 ”?”1 
> K<-matrix(0, nrow=3, ncol=4, 
dimnames=list(1:3, c("A", "B", "C", "D"))) 
> for (j in 1:4) 
for (i in 1:3) 
K[i,j]<-mean(mosquito$Y [mosquito[j]==i]) 


A B C D 
1 10.000000 6.302500 6.403333 6.763333 
2 4.223333 7.808333 7.839167 7.676667 
3 7.480833 7.593333 7.461667 7.264167 


灭 蚊 效 果 对 因素 的 显著 性 依次 是 因素 A 、 因 素 B 、 因 素 C 和 因素 D( 因 素 D 
不 显著 ). 从 计算 出 的 平均 时 间 (时 间 越 短 越 好 ), 可 以 看 出 ， 选 择 较 好 的 方案 是 : 


A, BI1C1D!1. 


习题 七 


7.1 三 个 工厂 生产 同一 种 零件 现 从 各 厂 产 品 中 分 别 拍 取 4 件 产 品 作 检测 ， 其 
检测 强度 如 表 7.25 所 示 . 


表 7.25: 产品 检测 数据 


有 三 零件 强度 
四 115 116 98 83 
已 103 107 118 116 
两 73 89 85 97 





(1) 对 数据 作 方差 分 析 , 判断 三 个 厂 生产 的 产品 的 零件 强度 是 否 有 显著 差异 ; 
(8) 求 每 个 工厂 生产 产品 零件 强度 的 均值 ， 作 出 相应 的 区 间 估计 (a = 0.05); 
(3) 对 数据 作 多 重 检验 ， 
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7.2 有 四 种 产品 . Ai,i 二 1,2,3 分 别 为 国内 甲 、 忆 、 丙 三 个 工厂 生产 的 产品 ， 
44 国外 同类 产品 ， 现 从 各 厂 分 别 取 10, 6, 6 和 2 个 产品 做 300 小 时 连续 磨损 老 
化 试验 ， 得 变化 率 如 表 7.26 所 示 .假定 各 厂 产 品 试验 变化 率 服 从 等 方差 的 正 态 
表 7.26: 磨损 老化 试验 数据 
变 化 率 
18 19 17 15 16 13 18 22 17 
19 26 28 23 25 


25 18 22 27 24 
14 





分 布 . 
(了 ) 试问 四 个 厂 生产 的 产品 的 变化 率 是 否 有 显著 差异 ? 

(2) 车 有 差异 ,请 做 进一步 的 检验 .国内 产品 与 国外 产品 有 无 显著 差异 ? 
记 ) 国内 各 厂家 的 产品 有 无 显著 差异 ? 

7.3 某 单 位 在 大 白鼠 营养 试验 中 ， 随 机 将 大 和 白鼠 分 为 三 组 ， 测 得 每 组 12 只 大 和 白 
和 鼠 尿 中 氢气 的 排出 量 和 (mg/6 d), 数据 由 表 7.27 所 示 .， 试 对 该 资料 作 正 态 性 检 


表 7.27: 白鼠 尿 中 氨氮 检测 数据 
7 ,3 9 


45 53 44 51 53 54 37 47 57 48 42 
66 66 86 56 52 76 83 72 73 59 53 





验 和 方差 齐 性 检验 . 

7.4 以 小 白鼠 为 对 象 研 究 正 常 肝 核糖 核酸 (RNA) 对 冶 细 胞 的 生物 作用 ,试验 分 
别 为 对 照 组 (生理 盐水 ) 、 水 层 RNA 组 和 酚 层 RNA 组 ， 分 别 用 此 三 种 不 同 处 理 
话 导 肝癌 细胞 的 果糖 二 而 酸 醋 酶 (FDP 酶 ) 活力 ， 数 据 如 表 7.28 所 示 . 问 三 种 
不 同 处 理 的 请 导 作 用 是 否 相 同 ? 

7.5 为 研究 人 们 在 催眠 状态 下 对 各 种 情绪 的 反应 国 是 否 有 差异 ， 选 取 了 8 个 受 
试 者 . 在 众 眠 状态 下 ， 要 求 每 人 按 任意 次 序 做 出 丽 惧 、 愉 快 、 忧 虑 和 平静 1 种 反 


x 
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表 7.28: 三 种 不 同 处 理 的 诱导 结果 
处 理 方法 
对 照 组 
水 层 RNA 组 
酚 技 RNA 组 


2.79 2.69 3.11 3.47 1.77 2.44 2.83 2.52 
3.83 3.15 4.70 3.97 2.03 2.87 3.65 5.09 
5.41 3.47 4.92 4.07 2.18 3.13 3.77 4.26 





应 . 表 7.29 给 出 了 各 受 试 者 在 处 于 这 4 种 情绪 状态 下 皮肤 的 电位 变化 值 . 试 
表 7.29: 4 种 情绪 状态 下 皮肤 的 电位 变化 值 (单位 ， mV) 


受 试 者 
情绪 状态 
1 2 3 4 5 6 8 
恐惧 23.1 57.6 10.5 23.6 11.9 54.6 21.0 20.3 
愉快 227 53.2 9.7 19.6 13.8 47.1 13.6 23.6 
忧虑 225 53.7 108 21.1 13.7 39.2 13.7 16.3 
平静 22.6 531 83 21.6 13.3 37.0 14.8 14.8 





在 a = 0.05 下 ， 检 验 受 试 者 在 众 眠 状态 下 对 这 4 种 情绪 的 反应 力 是 否 有 显著 差 
异 . 
7.6 为 了 提高 化 工厂 的 产品 质量 ， 需 要 寻求 最 优 反应 温度 与 反应 压力 的 配合 ， 
为 此 选择 如 下 水 平 : 

4: 反应 温度 ( 吧 ) 60 70 80 

B: 反应 压力 (公斤) 2 25 3 
在 每 个 A;B; 条 件 下 做 两 次 试验 ， 其 产量 如 表 7.30 所 示 . 

(1) 对 数据 作 方差 分 析 ( 应 考虑 交互 作用 ); 

(2) 求 最 优 条 件 下 平均 产量 的 点 舍 计 和 区 间 伟 计 ; 

(3) 对 AiB; 条 件 下 平均 产量 作 多 重 比较 ， 
7.7 某 良 种 繁殖 场 为 了 提高 水 稻 产 量 ， 制 定 试验 的 因素 如 表 7.31 所 示 . 试 选择 
Lo(34) 正 交 表 安排 试验 ， 假 定 相应 的 产量 为 (单位 ， kg/100m?) 

62.925 57.075 51.6 55.05 58.05 56.55 63.225 50.7 54.45 
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表 7.30: 试验 数据 





As 
Bi 6.8 6.4 
万 。 4.0 3.8 
Bs 6.5 7.0 
试 对 试验 结果 进行 方差 分 析 ， 并 给 出 一 组 较 好 的 种 殖 条 件 . 
表 7.31: 水 稻 的 试验 因素 水 平 表 
3 
南 二 矮 5 号 珍珠 矮 11 号 


4.50 棵 /100m? | 3.75 棵 /100m2 | 3.00 标 /100m? 
0.75 kg/100m? | 0.375 kg/100m? | 1.125 kg/100m? 





7.8 某 单位 研究 四 种 因素 对 钉螺 产 卵 数 (Y) 的 影响 ， 制 定 试验 的 因素 如 表 7.32 

所 示 . 试 选择 Ls(27) 正 交 表 安 排 试 验 ， 假 定 相 应 的 钉螺 产 卵 数 为 (学 位 : 个 ) 
86 95 91 94 91 96 83 88 

试 对 试验 结果 进行 方差 分 析 ， 并 给 出 一 组 较 好 灭 螺 方案 (考虑 有 交互 作用 ). 


表 7.32: 钉螺 产 卵 影响 试验 因素 的 水 平 表 
素 





水 本 
1 2 
温度 (A) 5°C 10°C 
含 气 量 (B) 0.5 5.0 
含水 量 (O) 10% 30% 
pH 值 (D) 6.0 8.0 


7.9 某 工 厂 为 了 提高 零件 内 孔 研 磨 工 序 质 量 进行 工艺 的 参数 选 优 试验 ， 考 察 孔 
的 锥 度 值 ， 希望 其 越 小 越 好 . 在 试验 中 考察 因子 的 水 平 表 7.33. 试 选择 Ls(2 ) 正 
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表 7.33: 因子 水 平 表 





未 水 下 
1 2 
研 孔 工艺 设备 (A) 通用 夹具 专用 夹具 
生铁 研 圈 材质 (B) 特殊 铸铁 一 般 友 铸铁 
留 研 量 (mm) (COC) 0.01 0.015 


交 表 安排 试验 ， 其 表 头 设计 如 表 7.34 所 示 . 在 每 一 条 件 下 加 工 了 四 个 零件 ， 测 
表 7.34: 试验 结果 
表 头 设计 A B C 
列 号 1 2 3 4 5 6 7 
量 其 锥 度 ， 试 验 结 果 如 表 7.35 所 示 ,， 试 对 试验 结果 进行 方差 分 析 ， 并 给 出 一 组 


表 7.35: 试验 结果 


试验 号 试 验 值 
1 1.5 lt 1.3 1.5 
2 1.0 1.2 1.0 1.0 
3 2.5 2.2 3.2 2.0 
4 2.5 2.5 1.5 2.8 
5 1.5 1.8 1.7 1.5 
6 1.0 2.5 1.3 1.5 
7 1.8 1.5 1.8 2.2 
8 1.9 2.6 2.3 2.0 





较 好 工艺 参数 指标 . 
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多 元 分 析 (maltivariate analysis) 是 多 变量 人 
用 广泛 的 一 个 重要 分 支 , 包含 了 丰富 的 理论 成 果 与 众多 的 应 用 方 ; 
括 回归 分 析 、 方 差分 析 、 判 别 分 析 、 聚 类 分 析 、 主 成 分 分 析 、 因 子 分 析 和 典型 相 
关 分 析 等 . 

有 关 回归 分 析 和 方差 分 析 的 内 容 已 在 第 六 章 、 第 七 章 作 了 介绍 ,本章 介绍 痢 
别 分 析 与 聚 类 分 析 的 内 容 . 这 两 部 分 内 容 有 一 个 共同 点 , 就 是 对 样本 进行 芬 类 
但 两 者 也 有 所 不 同 ， 判 别 分 析 是 在 已 知 有 和 多少 类 ,并 且 在 有 训练 样本 的 前 题 下 
和 有 引得 天 数 对 和 放 二 本 进行 分 而 半分 是 在 下 

的 情况 下 根据 某 种 规则 将 样本 (或 指标 ) 进行 分 类 ._ 

本 章 简单 介绍 判别 分 析 和 聚 类 分 析 的 基本 原理 与 方法 , 着 重 介 绍 如 何 应 用 R 
软件 对 数据 作 判 别 分 析 和 聚 类 分 析 . 

在 下 章 介绍 多 元 分 析 的 另 一 部 分 内 容 一 主 成 分 分 析 、 因 子 分 析 和 典型 相关 
分 析 . 


















8.1 判别 分 析 


判别 分 析 是 用 以 判别 个 体 所 属 群 体 的 一 种 统计 方法 , 它 产 生 于 20 世纪 30 年 
代 ， 近 年 来 ， 在 许多 现代 自然 科学 的 各 个 分 支 和 技术 部 门 中 ， 得 到 广泛 的 应 用 . 

例如 ,利用 计算 机 对 一 个 人 是 否 有 心脏 病 进行 诊断 时 ,可 以 取 一 批 没 有 心脏 
2 企 指 标的 数据 ， 然 后 再 取 一 批 已 知 患 有 心 胜 病 的 人 ， 同 样 也 测 得 
2 个 相同 指标 的 数据 ， 利 用 这 些 数 据 建立 一 个 判别 机 数 ， 并 求 出 相应 的 临界 值 _ 
这 时 对 于 需要 进行 诊断 的 人 ， 也 国 样 上 2 个 指标 的 数据 将 其 代入 判别 函数 ，_ 
求 得 判别 得 分 ， 再 依 判别 临界 值 ， 就 可 以 判断 此 人 是 属于 有 心脏 病 的 那 一 群体 ， 
还 是 属于 没有 心脏 病 的 那 一 群体 .又 如 在 考古 学 中 ,对 化 石 及 文物 年 代 的 判断 ; 
在 地 质 学 中 ， 判 断 是 有 矿 还 是 无 矿 ; 在 质量 管理 中 ， 判 断 某 种 产品 是 合格 品 ， 还 
是 不 合格 品 ; 在 植物 学 中 ， 对 于 新 发 现 的 一 种 植物 ， 判 断 其 属于 那 一 科 . 总 之 判 
别 分 析 方 法 在 很 多 学 科 中 有 着 广泛 的 应 用 . 

判别 方法 有 多 种 ， 这 里 主要 介绍 的 是 最 常用 的 判别 方法 , 而 重点 是 两 类 群体 
的 判别 方法 . 
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8.1.1 ”距离 判别 
-ml 就 是 将 pb 维 Euclid 空间 R22 划分 成 个 互 不 相交 的 区 域 Rj， 
k 天 


Rh,, Ee Rx, 即 门 R; = 0, U R; = J. 当 z € Ri, ? 一 1,2,...,k, 就 判定 x 属于 
j=1 j=1 
距离 判别 是 最 简单 、 直 观 的 一 种 判别 方法 ,该 方法 适用 于 连续 型 随机 变量 的 
判别 类 ， 对 变量 的 概率 分 布 没有 限制 . 
1. Mahalanobis 距离 的 概念 
通常 我 们 定义 的 距离 是 Euclid 距离 (简称 欧 氏 距离 ). 若 x, y 是 局 中 的 两 
个 点 ， 则 z 与 y 的 距离 为 





QU2 幼 二 7 一 外 一 VZ 一 人 一 功 





但 在 统计 分 析 与 计算 中 ，Euclid 距离 就 不 适用 了 , 看 一 下 下 面 的 例子 ( 见 图 8.1). 


























图 8.1: 不 同方 差 的 正 态 分 布 函数 


为 简单 起 见 ， 考 虚 p = 1 的 情况 . 设 X ~ N01DY 了 ~ N(4, 2), 绘 出 相应 
的 概率 密度 曲线 ,如 图 8.1 所 示 . 考虑 图 中 的 4 点 ，4 点 距 X 的 均值 Wi =0 较 
近 ， 距 Y 的 均值 wz = 4 较 远 . 但 从 概率 角度 来 分 析 问 题 ， 情 况 并 非 如 此 . 经 计 
算 ，4 点 的 x 值 为 1.66, 也 就 是 说 ，4 点 距 Mi =0 是 1.66cu, 而 4 点 距 M=4 
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却 只 有 1.1702, 因此 ， 从 概率 分 布 的 角度 来 讲 ， 应 该 认为 4 点 距 /2 更 近 一 点 . 
所 以 在 定义 距离 时 ， 要 考虑 随机 变量 方差 的 信息 . 


定义 8.1 设 X,Y 是 服从 均值 为 4, 协 方差 体 X 中 抽取 的 样本 ， 则 总 
体 关内 两 点 ZX 与 Y 的 ) 定义 为 


d(x,y) = V (2 — YY (ry). (8.1) 
定义 样本 与 总 体 六 的 Mahalanobis 距离 为 


ds, X) = VE NN). (82) 


2. 判别 准则 与 判别 函数 

在 这 里 ,讨论 两 个 总 体 的 距离 判别 , 分 别 讨论 两 总 体 协 方 差 阵 相 同和 协 方差 
阵 不 同 的 情况 . 

设 总 体 Xi 和 X 的 均值 向 量 分 别 为 pi 和 jz, 协 方差 阵 分 别 为 21 和 2, 今 
给 一 个 样本 zx, 要 判断 z 来 自 哪 一 个 总 体 . 

首先 考虑 两 个 总 体 X1 和 Xs 的 协 方差 相同 的 情况 ， 即 


ML, D1= =>. 


要 判断 xz 是 属于 哪 一 个 总 体 ， 需 要 计算 z 到 总 体 XI 和 Xo 的 Mahalanobis 距离 
Q2(z, XI 和 (x, XX,), 然后 进行 比较 ， 若 (x, 对 ) < (x, 2), 则 判定 
Zz 属于 已; 否则 判定 z 来 自 Xz. 由 此 得 到 如 下 判别 准则 


Ri= {x| d(x, Xi) < d(x, Xa)}, Rs = {2 | d(x, Xi) > d(x, Xa)}. (8.3) 











现在 引进 判别 函数 的 表达 式 ， 考 虑 中 (x, Xi1) 与 dz, X2) 之 间 的 关系 ， 有 
A= = (i) 下 人 一 出 一 相 一 两 全 而 ) 
= (zz 一 2272 p+ My 2) 
一 (zz 一 2z72 + pl i) 
= 2z72 (po pp2) + (pi1+ 12) DT 一生) 
= 2 (se) sli 


= 2(z -DE 2) (8 
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其 中 





= 外企 是 两 个 总 体 的 平均 值 


少 | 


w(x) = (£ — PY (p1 — po), (8.5) 
称 w(z) 为 两 总 体 距 离 的 判别 函数 ， 因 此 判别 准则 (8.3) 变 为 


Ri={z|w(rz)>0}, R= {zr|w(rz) < 0 (8.6) 


在 实际 计算 中 , 总体 的 均值 与 协 方差 阵 是 未 知 的 ， 因此 总 体 的 均值 与 协 方差 
阵 需 要 用 样本 均值 与 协 方 差 阵 来 代替 . 设 zx,…,z 内 是 来 自 总 体 Xi 的 ni 
个 样本 ， x 外,z9,…, zx 外 是 来 自 总 体 Xa 的 ma 个 样本 ， 则 样本 的 均值 与 协 方 
差 阵 为 





= 
bi = ZW 人 1 一 1,2, (8.7) 
Ts pe 
S 1 a 
本 ) io) (rz 
rE ) (# 四 ) 
1 
= - (9 上 +359 8.8 
a 二 二 2 )， ( ) 
其 中 
We 0 AR 
= zzO) (rz rd) ,i=1,2. (8.9) 
-而 ) (加 - 古 ) 
对 于 待 测 样 本 x, 其 判别 函数 定义 为 
Wr) = (rt — TD) H(zD ~ x®), (8.10) 
其 中 Ey 
= 全 (1) 十 称 (2) 
“ 
其 判别 准则 为 


Ri={z|wr)>0}, R= {zr| wr) < 0 (8.11) 
再 考虑 两 个 总 体 Xi 和 Xs 协 方差 阵 不 同 的 情况 ， 即 


/1 天 Ha， 21 #2. 
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对 于 样本 z, 在 协 方 差 阵 不 同 的 情况 下 ， 判 别 函 数 为 
wz) = (2 — 12) 2 一 Ap) 一 他 一 人 D7 (zp). (8.12) 


与 前 面 讨论 的 情况 相同 ,在 实际 计算 中 总 体 的 均值 与 协 方差 阵 是 未 知 的 ， 同 
样 需要 用 样本 的 均值 与 样本 协 方差 阵 来 代 蔡 . 因此 ， 对 于 符 测 样本 x, 判别 函数 
定义 为 








W(x) = (7 — £0) H(z 一 ZO) 一 (z 一 Z0D)T2T1(z 一 20D)， (8.13) 
其 中 
1 0 加 
二 一 — XT 
3 - -mm) (Pm 
1 
三 is i=1,2. (8.14) 
其 判别 准则 仍 为 式 (8.11). 
3. R 程序 


将 前 面 介绍 的 算法 编写 成 及 程序 (程序 名 : discriminiant.distance.R). 
discriminiant.distance <- function 

(TrnX1, TrnX2, TstX = NULL, var.equal = FALSE)T{ 

if (is.null(TstX) == TRUE) TstX <- rbind(TrnX1,TrnX2) 

if (is.vector(TstX) == TRUE) TstX <- t(as.matrix(TstX)) 

else if (is.matrix(TstX) != TRUE) 

TstX <- as.matrix(TstX) 
if (is.matrix(TrnX1) != TRUE) TrnX1 <- as.matrix(TrnX1) 
if (is.matrix(TrnX2) != TRUE) TrnX2 <- as.matrix(TrnX2) 


nx <- nrow(TstX) 

blong <- matrix(rep(0, nx), nrow=1, byrow=TRUE, 
dimnames=list("blong", 1:nx)) 

mul <- colMeans (TrnX1); mu2 <- colMeans (TrnX2) 


if (var.equal == TRUE || var.equal == T){ 
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S <- var(rbind(TrnX1,TrnX2)) 
Ww <- mahalanobis(TstX, mu2, S) 
- mahalanobis(TstX, mul, S) 


} 
elset{ 
S1 < -var(TrnX1); S2 <- var(TrnX2) 
W <- mahalanobis(TstX，mu2，S2) 
- mahalanobis(TstX，mul，S1) 
} 


for (i in 1:nx){ 
if (w[i] > 0) 
blong[i] <- 1 
else 
blong[i] <- 2 
} 
blong 
} 


在 程序 中 ， 输 入 变量 TrnX1 、 TrnX2 表示 Xi 类 、 Xs 类 训练 样本 ， 其 输入 格式 
是 数据 框 ， 或 矩阵 (样本 按 行 输入 ), 输入 变量 TstX 是 待 测 样本 ， 其 输入 格式 是 
数据 框 ， 或 窍 阵 (样本 按 行 输入 ), 或 向 量 (一 个 待 测 样本 )， 如 果 不 输入 TstX( 缺 
省 值 ), 则 竺 测 样本 为 两 个 训练 样本 之 和 ， 即 计算 训练 样本 的 回 代 情 况 . 输入 变量 
var .equal 是 逻辑 变量 ， var .equal=TRUE 表示 两 个 总 体 的 协 方差 阵 相 同 ;否则 
( 缺 省 值 ) 为 不 同 . 函数 的 输出 是 由 “1” 和 “2” 构 成 的 的 一 维和 矩阵 ，“1” 表 示 待 
测 样 本 属于 Xi 类 ，“2” 表 示 待 测 样本 属于 Xz 类 . 

在 上 述 程序 中 ， 用 到 Mahalanobis 距离 函数 iasialaiiobist) 该 函数 的 使 用 
格式 为 

mahalanobis(x, center, cov, inverted=FALSE, ...) 

其 中 x 是 由 样本 数据 构成 的 向 量 或 矩阵 (2 维 ), center 为 样本 中 心 ， cov 为 样 
本 的 协 方差 阵 ， 其 公式 为 


Dg = = 


4. 判别 实例 
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例 8.1 在 研究 砂 基 液 化 问题 中 , 选 了 七 个 因子 . 今 从 已 液化 和 未 液化 的 地 层 中 分 
别 抽 了 12 个 和 23 个 样本 ， 数 据 列 在 表 8.1 中 ， 其 中 了 类 表示 已 液化 类 ， 
表示 未 液化 类 . 试 建立 距离 判别 的 判 列 准则 ， 并 按 判 列 准 则 对 原 35 个 样本 进行 
回 代 ( 即 按 判别 准则 进行 分 类 ), 分 析 误 判 情 况 . 


I 
I 
I 
I 
I 
I 
I 
I 
I 
I 


| 
Le 


表 8.1: 原始 分 类 数据 





180 
45 
75 
75 
75 
15 
30 
30 
30 
70 
70 
30 


类 
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表 8.1( 续 ): 原始 分 类 数据 


编号 7 
23 30 
24 30 
25 18 
26 75 
27 75 
28 40 
29 40 
30 180 
31 180 
32 180 
33 180 
34 45 
35 45 





解 : 输入 数据 ， 调 用 函数 discriminiant .distance() 进行 判别 ， 分 别 考 虑 
两 总 体 协 方差 阵 相 同和 协 方差 阵 不 同 的 情况 . 


> classX1i<-data.frame( 

xl=c(6.60， 6.60，6.10，6.10， 8.40， 7.2， 8.40， 7.50， 
7.50， 8.30， 7.80， 7.80) ， 

Xx2=c(39.00,39.00，47.00，47.00，32.00， 6.0，113.00，52.00， 
52.00,113.00,172.00,172.00) ， 

x3=c(1.00, 1.00， 1.00， 1.00， 2.00， 1.0， 3.50， 1.00，, 
3.50， 0.00， 1.00， 1.50) ， 

x4=c(6.00, 6.00， 6.00， 6.00，7.50， 7.0， 6.00， 6.00， 
7.50， 7.50， 3.50， 3.00) ， 

x5=c(6.00, 12.00, 6.00，12.00，19.00，28.0， 18.00，12.00， 
6.00，35.00，14.00，15.00) ， 

x6=c(0.12, 0.12， 0.08，0.08， 0.35， 0.3， 0.15， 0.16， 
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0.16, 0.12， 0.21， 0.21) ， 
Xx7=c(20.00,20.00，12.00，12.00，75.00，30.0， 75.00，40.00， 
40.00,180.00，45.00，45.00) 
) 


> classX2<-data.frame(l 


xl=c(8.40， 8.40， 8.40， 6.3，7.00， 7.00， 7.00， 8.30， 
8.30， 7.2， 7.2, 7.2, 5.50, 8.40， 8.40， 7.50， 
7.50， 8.30， 8.30, 8.30, 8.30， 7.80， 7.80) ， 

XxX2=c(32.0 ,32.00，32.00，11.0，8.00， 8.00， 8.00,161.00， 

161.0， 6.0， 6.0， 6.0，6.00,113.00,113.00，52.00， 


52.00，97.00，97.00,89.00,56.00,172.00,283.00) ， 


x3=c(1.00, 2.00， 2.50， 4.5, 4.50, 6.00， 1.50， 1.50， 
0.50， 3.5， 1.0， 1.0，2.50， 3.50， 3.50， 1.00， 
1.00， 0.00， 2.50，0.00，1.50， 1.00， 1.00) ， 

x4=c(5.00, 9.00， 4.00, 7.5, 4.50, 7.50， 6.00， 4.00， 
2.50， 4.0， 3.0， 6.0，3.00， 4.50， 4.50， 6.00， 
7.50， 6.00， 6.00，6.00，6.00， 3.50， 4.50) ， 

x5=c(4.00, 10.00, 10.00, 3.0，9.00， 4.00， 1.00， 4.00， 
1.00， 12.0， 3.0， 5.0，7.00，6.00， 8.00， 6.00， 
8.00， 5.00， 5.00,10.00,13.00， 6.00， 6.00) ， 

x6=c(0.35， 0.35， 0.35， 0.2, 0.25， 0.25， 0.25, 0.08， 
0.08， 0.30， 0.3，0.3，0.18，0.15， 0.15， 0.16， 
0.16， 0.15， 0.15, 0.16, 0.25, 0.21, 0.18) ， 


x7=c(75.00,75.00，75.00，15.0,30.00，30.00，30.00，70.00， 
70.00，30.0， 30.0，30.0,18.00，75.00，75.00，40.00， 
40.00,180.00,180.00,180.00,180.00,45.00,45.00) 
) 
> source("discriminiant.distance.R'") 
> discriminiant .distance(classX1, classX2, var.equal=TRUE) 
1234567891011 12 13 14 15 16 17 18 19 20 21 22 23 
bloneg tt 二 二 2 二 22 2 2 52 2 2 2 2. 2 
24 25 26 27 28 29 30 31 32 33 34 35 
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blong 2 2 2 2 1 1 2 2 2 2 2 2 
> discriminiant.distance(classX1, classX2) 
12345678910 11 12 13 14 15 16 17 18 19 20 21 22 23 
blong 1 1 1111112 1 1 1 2 2 2 2 2 2 2 2 2 2 2 
24 25 26 27 28 29 30 31 32 33 34 35 
blong 2 2 2 2 2 2 2 2 2 2 2 2 
在 认为 两 总 体 协 方差 阵 相同 的 情况 下 ,将 训练 样本 回 代 进 行 判别 ， 有 三 个 点 
判 错 ， 分 别 是 第 9 号 样本 、 第 28 号 样本 和 第 29 号 样本 . 
在 认为 两 总 体 协 方差 阵 不 同 的 情况 下 ,将 训练 样本 回 代 进行 判别 ， 只 有 一 个 
点 判 错 ， 是 第 9 号 样本 . 
5. 多 分 类 问题 的 距离 判别 
对 于 距离 判别 ,很 容易 将 两 分 类 判别 方法 推广 到 多 分 类 问题 ,事实 上 ， 距 离 
判别 的 本 质 就 是 计算 Mahalanobis 距离 ， 待 测 样 本 距 哪 个 总 体 的 距离 近 ， 就 认为 
它 属于 哪 一 类 . 
假设 样本 共有 类， 分 别 是 Xi, 六 2,…, Xk. 若 认 为 这 上 类 总 体 的 方差 是 相 
同 的 ， 即 





D1 = = = = >, 


则 用 全 部 样本 计算 样本 方差 作为 总 体 方差 2 的 估计 值 . 若 认 为 大 类 总 体 的 方 
差 不 相同 ， 则 用 各 自 的 样本 计算 样本 方差 ; 作为 总 体 方差 2 的 估计 值 . 
相应 的 判别 准则 为 


Ri = {7x | d(x, Xi) = mi Al ls i = 1,2,...,k, 








其 中 d(x,X;) 是 由 式 (8.2) 定义 样本 z 与 总 体 Xi 的 Mahalanobis 距离 . 若 认 为 
方差 相同 时 ， 式 (8.2) 中 的 马 由 估计 值 5 代替 ， 若 认为 方差 不 同时 ， 式 (8.2) 中 
的 号 由 估计 值 5; 代替 . 

用 上 述 方法 编写 成 及 程序 (程序 名 : distinguish.distance.R). 
distinguish.distance <- function 

(TrnX, TrnG, TstX = NULL, var.equal = FALSE)T 

if ( is.factor(TrnG) == FALSE){ 








mx <- nrow(TrnX); mg <- nrow(TrnG) 
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TrnX <- rbind(TrnX, TrnG) 
TrnG <- factor(rep(1:2, c(mx, mg))) 
} 
if (is.null(TstX) == TRUE) TstX <- TrnX 
if (is.vector(TstX) == TRUE) TstX <- t(as.matrix(TstX)) 
else if (is.matrix(TstX) != TRUE) 
TstX <- as.matrix(TstX) 
if (is.matrix(TrnX) != TRUE) TrnX <- as.matrix(TrnX) 


nx <- nrow(TstX) 
blong <- matrix(rep(0, nx), nrow=1, 
dimnames=list("blong", 1:nx)) 

& <- length(levels (TrnG)) 
mu <- matrix(0, nrow=g, ncol=ncol(TrnX)) 
for (i in 1:g) 

mul[i,] <- colMeans (TrnX[TrnG==i ,|]) 
D < -matrix(0, nrow=g, ncol=nx) 
if (var.equal == TRUE || var.equal == T){ 

for (i in 1:g) 

D[i,] <- mahalanobis(TstX, mul[i,], var(TrnX)) 

} 
elset 

for (i in 1:g) 

D[i,] <- mahalanobis(TstX, mul[i,], var(TrnX[TrnG==i, |)) 

} 
for (j in 1:nx){ 

dmin <- Inf 

for (i in 1:g) 

if (D[i,j] < dmin){ 
dmin <- D[i,j]; blong[j] <- i 
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blong 
} 


程序 分 别 考虑 了 总 体 协 方差 阵 相同 和 总 体 协 方差 阵 不同 的 两 种 情况 . 输入 变量 
TrnX 表示 训练 样本 ， 其 输入 格式 是 窍 阵 (样本 按 行 输入 ), 或 数据 框 . TrnG 是 因 
子 变量 , 表示 输入 训练 样本 的 分 类 情况 . 输入 变量 TstX 是 待 测 样本 , 其 输入 格式 是 
和 矩阵 (样本 按 行 输入 ), 或 数据 框 , 或 向 量 (一 个 待 测 样 本 ). 如 果 不 输入 TstX( 缺 省 
值 ), 则 待 测 样 本 为 训练 样本 . 输入 变量 var .equal 是 逻辑 变量 ，var .equal=TRUE 
表示 计算 时 认为 总 体 协 方差 阵 是 相同 的 ;否则 ( 缺 省 值 ) 是 不 同 的 .函数 的 输出 
是 由 数字 构成 的 的 一 维和 矩阵 ， 数 字 表 示 相 应 的 类 . 为 了 与 前 一 个 程序 兼容 ， 对 于 
二 分 类 问题 ， 也 可 以 按照 discriminiant .distance 函数 的 输入 格式 输入 . 

例 8.2 Kisher Iris 数据 Jris 数据 有 四 个 属性 ， 葛 片 的 长 度 、 苯 片 的 宽度 、 花 
办 长 度 和 花 因 的 宽度 ， 数据 共 150 个 样本 ， 分 为 三 类 ， 前 50 个 数据 是 第 一 类 
一 Setosa, 中 间 的 50 个 数据 是 第 二 类 一 Versicolor, 最 后 50 个 数据 是 第 三 类 一 
Virginica. 试用 距离 判别 对 Jris 数据 进行 判别 分 析 . 


解 : R. 软件 中 提供 了 Iris 数据， 数据 的 前 四 列 是 数据 的 四 个 属性 ， 第 五 列 标 
明 数 据 属于 哪 一 类 . 





> XxX<-iris[,1:4] 
> G<-gl1(3,50) 
> 


source("distinguish.distance.R") 


Vv 


distinguish.distance(X,G) 
12345678910 11 12 13 14 15 16 17 18 19 20 21 22 23 
blong 1 1 11111111111 1 1 1 1 1 1 1 1 1 1 1 1 1 1 
24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 
blong 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 
44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 
blong 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 
64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 
blong 2 2 2 2 2 2 2 3 2 3 2 2 2 2 2 2 2 2 2 2 
84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 
blong 3 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 
103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 
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blong 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 
118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 

blong 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 
133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 

blong 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 
148 149 150 

blong 3 3 3 


从 计算 结果 可 以 看 出 ， 只 有 第 71 号 样本 、 第 73 号 样本 和 第 84 号 样本 错 
判 ， 回 代 的 判别 正确 率 为 147/150 = 98%. 


8.1.2 ”Bayes 判别 

Bayes 判别 是 假定 对 研究 对 象 已 有 一 定 的 认识 ,这 种 认识 常用 先 验 概率 来 描 
述 ， 当 取得 样本 后 ,就 可 以 用 样本 来 修正 已 有 的 先 验 概率 分 布 ， 得 出 后 验 概率 分 
布 ， 现 通过 后 验 概率 分 布 进 行 各 种 统计 推断 . 

1. 误 判 概率 与 误 判 损失 

考虑 两 个 总 体 的 判别 情况 . 设 Xi 与 X2 分 别 具 有 概率 密度 函数 有 (7) 与 
户 (z), 其 中 zx 是 p 维 向 量 . 记 为 zx 的 所 有 可 能 观测 值 的 全 体 , 称 为 样本 空间 . 


Ri 为 根据 某 种 规则 要 判 为 XI 的 那些 化 的 全 体 ， 而 Ra 一 2 一 Ra 是 要 判 为 XX» 
那些 z 的 全 体 ， 某 样本 实际 来 自 Xi, 但 被 判 为 X 的 概率 为 





六 二 人 人 本 (8.15) 


来 自 Xz, 但 被 判 为 Xi 的 概率 


P(1|2) = P{z € Ri|X2} = fo(z)dzx. (8.16) 


类 似 地 ， 来 自 Xi 也 被 判 为 Ki, 来 自 X2 也 被 判 为 X 的 概率 


P(1NY 震 Pze Rx}= f fi(z)dz, (8.17) 


P(2|2) = Plze Faxs}= f 户 (Z)dz， (8.18) 
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又 设 pl pa 分 别 表 示 总 体 Xi 和 Xs 的 先 验 概 率 ， 且 Pi 二 pa = 1, 于 是 
Pi 正确 地 判 为 Xi} = P{ 来 自 Xi, 被 判 为 X1} 
= P{xzEe RIXi}: PX)= P(1l1):p, (8.19) 
P{ 误 判 到 X1} = P{ 来 自 六, 被 判 为 X1} 
= Ptze Ri|X2}: P(X»)= P(1|2):p2. (8.20) 
类 似 地 有 
P{ 正 确 地 判 为 X2} = P(2|2): po， (8.21) 
P{ 误 判 到 Xs} = P211) .pi (8.22) 
设 L(1|2) 表示 来 自 Xs 被 误 判 为 Xi 引起 的 损失 ， LL(2|1) 表示 来 自 Xi 被 
误 判 为 X2 引起 的 损失 ， 并 规定 L(1|1) = L(2|2|) = 0. 
将 上 述 误 判 概 率 与 误 判 损失 结合 起 来 ， 定 义 平均 误 判 损失 (expected cost of 
misclassification, 简 记 为 ECM) 如 下 
ECM(R1, Ra) = £L(2|1)P(2l1)p: + L112)P(1l2)p;. (8.23) 
一 个 合理 的 选择 是 使 ECM 达到 极 小 . 
2. 两 个 总 体 的 Bayes 判别 
可 以 证 明 ， 极 小 化 平均 误 判 损失 函数 (8.23) 的 划分 区 域 及 和 Rs 为 
-全 | 加 > 下 国生 ], 名 -人 | 罗 < 到 国名 


Re Dol f(z) < LOID) (2 

因此 , 可 以 将 式 (8.24) 作为 Bayes 判别 的 判别 准则 . 在 这 个 准则 中 只 需要 计算 

(1) 样本 点 z 的 概率 密度 函数 比 有 (2)/ 所 (2) 

(2) 损失 比 L012)/L021D); 

(3) 先 验 概率 比 pa/pr. 

下 面 讨论 正 态 分 布 情况 下 ， 样 本 点 z 的 概率 密度 函数 比 的 计算 设 X; ~ 
NUas PN) (i 二 1,2), 分 别 考虑 总 体 协 方差 阵 相同 和 协 方差 阵 不 同 的 情况 . 

首先 考虑 总 体 协 方差 阵 相同 的 情况 ， 即 吕 二 52 二 史 . 此 时 X; 的 密度 为 














fi(x) = (27) 25) 2 exp (ie — /i) 3 (x— 站 | ,2 (8.25) 
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因此 ， Ri 和 Rz 划分 区 域 (8.24) 等 价 于 


i {z | W(z) > 9} $e {z | W(z) < ls (8.26) 
其 中 
1 Ta—1 1 人 中 一 1 
W(x) = 5(% 一 /2) 2 人 一 [2) 一 7 一 各 | D> (zt— M1) 
= [eB te)| B10n to) (827) 
有 = ni (8.28) 


不 难 发 现 ， 对 于 正 态 分 布 总 体 的 Bayes 判别 ， 其 判别 规则 (8.26)-(8.28) 可 以 
看 成 距离 判别 的 推广 ， 当 pi = po, ZL(1|2) = (2|1) 时 ， = 0, 就 是 距离 判别 . 


再 考虑 总 体 协 方差 阵 不 同 的 情况 ， 即 2i 关 ， 此 时 Ri 和 Rs 划分 区 域 
(8.24) 等 价 于 
ss {z | W(z) > 8}， 和 {z | W(z) < 8}， (8.29) 
其 中 
W(s) = Se pa) Te po) 3(e pa) Er! (sp) (830) 
过 n+ ( 曲 ) (8.31) 


3. R 程序 与 例子 


按照 上 述 方法 写 出 两 总 体 判 别 的 Bayes 判别 程序 (程序 名 : discriminiant 
.bayes.R). 
discriminiant.bayes <- function 
(TrnX1, TrnX2, rate = 1, TstX = NULL, var.equal = FALSE){ 
if (is.null(TstX) == TRUE) TstX<-rbind(TrnX1,TrnX2) 
if (is.vector(TstX) == TRUE) TstX <- t(as.matrix(TstX)) 
else if (is.matrix(TstX) != TRUE) 
TstX <- as.matrix(TstX) 
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if (is.matrix(TrnX1) != TRUE) TrnX1 <- as.matrix(TrnX1) 
if (is.matrix(TrnX2) != TRUE) TrnX2 <- as.matrix(TrnX2) 


nx <- nrow(TstX) 
blong <- matrix(rep(0, nx), nrow=1, byrow=TRUE, 
dimnames=list("blong", 1:nx)) 
mul <- colMeans (TrnX1); mu2 <- colMeans (TrnX2) 
if (var.equal == TRUE || var.equal == T){ 
S <- var(rbind(TrnX1,TrnX2)); beta <- 2*log(rate) 
Ww <- mahalanobis(TstX, mu2, S) 
- mahalanobis(TstX, muil, S) 
elset{ 
S1 <- var(TrnX1); S2 <- var(TrnX2) 
beta <- 2*log(rate) + log(det(S1)/det(S2)) 
W <- mahalanobis(TstX，mu2，S2) 
- mahalanobis(TstX，mul，S1) 


for (i in 1:nx){ 
if (w[i] > beta) 
blong[i] <- 1 
else 
blong[i] <- 2 
le 
blong 
} 
在 程序 中 ,输入 变量 TrnX1 、 TrnX2 表示 Xi 类 、 Xs 类 训练 样本 ， 其 输入 格式 
是 数据 框 , 或 年 阵 (样本 按 行 输 入 ). rate= 侈 由 缚 , 缺 省 值 为 1. TstX 是 待 测 样 
本 ， 其 输入 格式 是 数据 框 ， 或 矩阵 (样本 按 行 输入 ), 或 向 量 (一 个 待 测 样本 )， 如 
果 不 输入 TstX( 缺 省 值 ), 则 待 测 样本 为 两 个 训练 样本 之 和 ， 即 计算 训练 样本 的 回 
代 情 况 . 输入 变量 var.equal 是 逻辑 变量 ，var .equal=TRUE 表示 认为 两 总 体 的 
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协 方差 阵 是 相同 的 ， 否 则 ( 缺 省 值 ) 是 不 同 的 .函数 的 输出 是 由 “1” 和 “2” 构 成 
的 的 一 维 害 阵 ，“1” 表 示 待 测 样本 属于 Xi 类 ，“2” 表 示 待 测 样 本 属于 X2 类 . 
例 8.3 表 8.2 是 某 气象 站 预报 有 无 春 旱 的 实际 资料 ， Z1 与 Za 是 综合 预报 因子 
(气象 含义 略 )， 有 春 早 的 是 6 个 年 份 的 资料 ， 无 春 旱 的 是 8 个 年 份 的 资料 ， 它 
们 的 先 验 概率 分 别 用 6/14 和 8/14 来 估计 ， 并 假设 误 判 损失 相等 ， 试 用 Bayes 
估计 对 数据 进行 分 析 ， 


表 8.2: 某 气象 站 有 无 春 旱 的 资料 


序 节 无 大 时 
未 2 一 0.7 
2 21.6 一 1.4 
3 22.0 一 0.8 
4 22.8 一 1.6 
5 297 一 1.5 
6 21.5 一 1.0 
扩 22:] 一 1.2 
8 21.4 一 1.3 





解 : 输入 数据 ( 按 矩 阵 形式 )， 再 调用 函数 discriminiant .bayes() 进行 判 
别 (程序 名 :exam0803 .BR) 
> TrnX1<-matrix( 
c(24.8，24.1，26.6，23.5，25.5，27.4， 
=225035 去 245415950 39 一 2.1 =8,1), 
ncol=2) 
> TrnX2<-matrix( 
c(22.1, 21.6, 22.0, 22.8, 22.7, 21.5,22.1，21.4, 
=0.7,; -1.4, -0.8; -1.6, =1.5, =1.0, -1.2,; -1.3), 
ncol=2) 


#### 调用 已 编 好 的 程序 


> source("discriminiant.bayes.R") 
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#### 认为 样本 协 方差 相同 

> discriminiant.bayes(X1, X2, rate=8/6, var.equal=TRUE) 
1234567891011 12 13 14 

blong 1 1 1211222 2 2 2 2 2 

第 4 号 样本 被 错 判 . 

#### 认为 样本 协 方差 不 同 

> discriminiant.bayes (TrnX1, TrnX2, rate=8/6) 
1234567891011 12 13 14 

blong 1 1 1111222 2 2 2 2 2 


所 有 样本 回 代 全 部 正确 . 

4. 多 分 类 问题 的 Bayes 判别 

从 上 面 的 计算 过 程 可 知 ， Bayes 判别 的 本 质 就 是 找到 一 种 判别 准则 ,使 得 平 
均 误 判 损失 达到 最 小 ， 也 就 是 相应 的 概率 达到 最 大 . 

假设 样本 共有 k 类 ， 分 别 是 及 1， 信 2， 人 XX.， 相应 的 先 验 概率 为 DT D2 ** ,Pk, 
并 假设 所 有 错 判 损失 是 相同 的 ， 因 此 相应 的 判别 准则 为 











当 丰 类 总 体 的 协 方差 阵 相 同 ， 即 > = 22 = …… = 4 = ,此 时 概率 密度 函 
数 为 
fi(7) 二 (Qn eXxp {= SE ee < 器 } ) 7 二 1, 2, A k, 
(8.33) 
则 计算 函数 
d(x) = 了 (ZJ T(z — 13) — npy, (8.34) 


2 
在 计算 中 ， 式 (8.34) 中 协 方差 阵 2 用 其 估计 值 5 代替 . 
当天 类 总 体 的 协 方差 阵 不 同 ， 此 时 概率 密度 函数 为 


= 1 ; 
fj(x) = (27) /下 | 1/2 exp 人 -ie — /7) 了 1(z 一 中 7=1,2,...,k, 
(8.35) 
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则 计算 函数 


dr) = 3(e — 15) P71(e 1) Inpy — Sin(|E), (8.30) 


在 计算 中 ， 式 (8.36) 中 协 方差 阵 2; 用 其 估计 值 总 代替 . 
判别 准则 (8.32) 等 价 为 


忆 ={Z|di(z) = Ei, (7)}, i1=1,2,..…,k. (8.37) 


用 上 述 方法 编写 成 及 程序 (程序 名 : ”distinguish.bayes.R). 
distinguish.bayes <- function 
(TrnX, TrnG, p = rep(1, length(levels(TrnG)),), 
TstX = NULL, var.equal = FALSE)T 
if ( is.factor(TrnG) == FALSE){ 
mx <- nrow(TrnX); mg <- nrow(TrnG) 
TrnX <- rbind(TrnX, TrnG) 
TrnG <- factor(rep(1:2, c(mx, mg))) 
} 
if (is.null(TstX) == TRUE) TstX <- TrnX 
if (is.vector(TstX) == TRUE) TstX <- t(as.matrix(TstX)) 
else if (is.matrix(TstX) != TRUE) 
TstX <- as.matrix(TstX) 
if (is.matrix(TrnX) != TRUE) TrnX <- as.matrix(TrnX) 


nx <- nrow(TstX) 
blong <- matrix(rep(0, nx), nrow=1, 
dimnames=list("blong", 1:nx)) 

& <- length(levels(TrnG)) 
mu <- matrix(0, nrow=g, ncol=ncol(TrnX)) 
for (i in 1:g) 

mul[i,] <- colMeans (TrnX[TrnG==i,|]) 
D <- matrix(0, nrow=g, ncol=nx) 


if (var.equal == TRUE || var.equal == T){ 
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for (i in 1:g){ 
d2 <- mahalanobis(TstX, mu[i,], var(TrnX)) 
D[i,] <- d2 - 2*log(p[i]) 


} 
elset 
for (i in 1:g){ 
S <- var(TrnX[TrnG==i,]) 
d2 <- mahalanobis(TstX, mu[i,], S) 
D[i,] <- d2 - 2*log(p[i])-log(det(S)) 


} 
for (j in 1:nx){ 
dmin <- Inf 
for (i in 1:g) 
if (D[i,j] < dmin){ 
dmin <- D[i,j]; blong[j] <- i 


于 
blong 
} 


程序 分 别 考 虑 了 总 体 协 方差 阵 相同 和 协 方差 阵 不 同 的 情况 . 输入 变量 TrnxX 表示 
训练 样本 ,其 输入 格式 是 甜 阵 (样本 按 行 输入 ), 或 数据 框 . TrnG 是 因子 变量 , 表 
示 训 练 样本 的 分 类 情况 . 输入 变量 p 是 先 验 概 率 ， 缺 省 值 均 为 1. 输入 变量 TstX 
是 待 测 样 本 , 其 输入 格式 是 矩阵 (样本 按 行 输入 ), 或 数据 框 , 或 向 量 (一 个 待 测 样 
本 ). 如 果 不 输入 TstX( 缺 省 值 ), 则 待 测 样本 为 训练 样本 . 输入 变量 var .equal 是 
逻辑 变量 ，var .equal=TRUE 表示 认为 总 体 协 方差 阵 是 相同 的 ; 否则 ( 缺 省 值 ) 是 
不 同 的 . 函数 的 输出 是 由 数字 构成 的 的 一 维 矩 阵 ， 数 字 表 示 相 应 的 类 . 为 了 与 前 
面 两 总 体 的 判别 程序 兼容 ,对 于 二 分 类 问题 , 也 可 以 按照 discriminiant .bayes 
函数 的 输入 格式 输入 ， 


例 8.4 用 Bayes 判别 对 Fisher Iris 数据 进行 分 析 . 假设 先 验 概率 是 相同 的 ， 均 
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为 1. 考虑 方差 不 同 的 情况 . 
解 : 


Vv 


V VV VvV YY 


blong 


blong 


blong 


blong 


blong 


blong 


blong 


blong 


blong 


从 计算 结果 可 以 看 出 ， 只 有 第 69 、 


X<-iris[,1:4] 

G<-g1 (3,50) 
source("distinguish.bayes.R") 
distinguish.bayes(X,G) 
distinguish.bayes(X,G) 


12345678910 11 12 13 14 15 16 17 18 19 20 21 22 
111111111 1 1 1 1 1 1 1 1 1 1 1 1 1 
23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 
42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 
1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 
61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 
2 .22 2 2 2 2 2 3 2 3 2 3 2 2 2 2 3 2 
80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 
2 .22 2 3 2 2 2 2 2 2 2 2 2 2 2 2 2 2 
99 100 101 102 103 104 105 106 107 108 109 110 111 112 
2 2 3 3 3 3 3 3 3 3 3 3 3 3 
113 114 115 116 117 118 119 120 121 122 123 124 125 126 
3 3 3 3 3 3 3 3 3 3 3 3 3 3 
127 128 129 130 131 132 133 134 135 136 137 138 139 140 
3 3 3 3 3 3 3 3 3 3 3 3 3 3 
141 142 143 144 145 146 147 148 149 150 
3 3 3 3 3 3 3 3 3 3 


71、73、78 、 


别 正确 率 为 145/150 = 96.67%. 


8.1.3 


Fisher 判别 
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84 号 样本 错 判 ， 回 代 的 判 


Fisher ( 费 吹 ) 判别 是 按 类 内 方差 尽量 小 ， 类 间 方 差 尽 量 大 的 准则 来 求 判别 
函数 的 .在 这 里 仅 讨论 两 个 总 体 的 判别 方法 . 
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1. 判别 准则 


设 两 个 总 体 Xi 和 Xi 的 均值 与 协 方差 阵 分 别 为 yi，k2 和 1， 2, 对 于 任 给 
一 个 样本 x, 考虑 它 的 判别 函数 


尺 一 2 人 (DZ)， (8.38) 

并 假设 
ur = E(u(z)|zEXI), au = E(u(z) | 7 € X,), (8.39) 
of = Var(u(z) |z EXi), 0o2 = Var(u(z) | x € X,). (8.40) 


Fisher 判别 准则 就 是 要 寻找 判别 本 数 u(z), 使 类 内 偏差 平方 和 
Wo = of?+o2 
最 小 ， 而 类 问 偏差 平方 和 
Bo = (aa 一 十 (ua 一休 
最 大 ， 其 中 w= (wu 二 


将 上 面 两 个 要 求 结合 在 一 起 ， Fisher 判别 准则 就 是 要 求 函数 ulz) 使 得 
二 


= (8.41) 

达到 最 大 .， 因 此， 判别 准则 为 
RB = {7 | luz) = wl < hu) — ul}, (8.42) 
有 Ra = {zx| IO) 一 了 | > u(r) — uol}. (8.43) 


2. 线性 判别 函数 中 系数 的 确定 


从 理论 上 讲 ，vw(z) 可 以 是 任意 函数 , 但 对 于 任意 函数 u(x) 使 式 (8.41) 中 的 
7 达到 最 大 是 很 困难 的 ， 因 此 ， 通 常 取 v(z) 为 线性 函数 ， 即 令 





w(x2) = a = aa21 + aaza + Aprp. (8.44) 


因此 ， 问 题 就 转化 为 求 u(x) 的 系数 a, 使 得 目标 函数 7 达到 最 大 . 
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与 距离 判别 一 样 ， 在 实际 计算 中 ， 总 体 的 均值 与 协 方差 阵 是 未 知 的 ， 因此 需 
要 用 样本 均值 与 协 方差 阵 来 代替 . 设 2 站 ,x 久 ,… ,x 名 是 来 自 总 体 X 的 ni 个 样 
本 ，z 人 ,xz 包 ;7z 久 是 来 自 总 体 Xi 的 nz 个 样本 , 用 这 些 样 本 得 到 wi, wa, wo1 
和 O2 的 估计 ， 


i 基 w= 久生 De 0 








— alr, i=1,2, (8.45) 
四 1 2 Ni ; 1 2 Ni ee 
a = DD = 
i=1 j=1 i=1 j=1 
= a’, (8.46) 
1 . 2 1 忌 1 
X= Be (PH) 
TiO— 1 i 1 
j=1 j=1 
YB 
Se Ta Sia, i= 1,2, (8.47) 
其 中 
Nn = Ni no, 
Wa | = 
= > (4 g -205) (20 -20) > 三 环 (8.48) 
7=1 


因此 ， 将 类 内 偏差 的 平方 Wo 与 类 间 偏 差 平方 和 Bo 改 为 组 内 离 差 平方 和 Wi 与 
组 间 离 偏差 的 平方 和 Bo, 即 


Wo = > (ni—1)6?=ar (6 +52)a= aTSo, (8.49) 


2 三 于 
、 2 2 pe 站 
Bo = 》 nl i) =ar > nm (20 7) (25 一 可 | a 
4 三 二 ?一 1 


Sn 
Se (dd ) a, (8.50) 
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其 中 5S=51+S2 n= 入 +m,d= (2 本 -30). 因此 , 求 1= 字 Bo :最 大 ,等 价 
于 求 
aT (ddT)a 
alTSa 
最 大 .这 个 解 是 不 唯一 的 ， 因 为 对 任意 的 a 关 0, 它 的 任意 非 零 倍 均 保 持 其 值 不 
变 ， 不 失 一 般 性 ， 将 求 最 大 问题 转化 为 约束 优化 问题 
max az(dd )a, (8.51) 
st. a’Sa=1. (8.52) 








由 约束 问题 的 一 阶 必要 条 件 得 到 


= S51d. (8.53) 


3. 确定 判别 函数 

对 于 一 个 新 样本 7x, 现 要 确定 x 属于 哪 一 类 .为 方便 起 见 ， 不 妨 设 页 < 到 . 
因此 由 判别 准则 (8.42), 当 w(x) < 页 时， 则 判 z € XI 当 w(x) > 而 时 ， 则 判 
ZX EXo. 那么 , 当面 <u(7x) < 三 时 ，Z 属于 哪 一 总 体 呢 ? 应 当 找 页 , 硬 的 均值 


二 2 
二 一 Wi 十 a 
Nn 


当 u(z) < 五 时 ， 则 判 zs Xi; 否则 判 zs X2. 由 于 





ulz) -1 = us) - ( 卫 瑟 + 到 下 ] = (2 -0 5) 
n n n 
= al(r—7z5)= dS 1(r— 7T), (8.54) 
其 中 
J -一 Nh Lj Ll 7 二 让 

和 人 

到 Ty (GD) 

一 (1) 2Z(02) = 
i S33 


2 一 1 J]=1 
由 上 式 可 知 ， 世 就 是 样本 均值 ， 因此， 构造 判别 函数 


w(x) = dS (rx 一 如 (8.55) 
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此 时 ， 判 别 准则 (8.42)-(8.43) 等 价 为 


Ri= {zr|vw(r) <0}, R= {7 |w(r) > 0}. (8.56) 


4. RR 程序 与 例子 
根据 前 面 所 述 方法 ,编写 相应 的 及 程序 (程序 名 : discriminiant .fisher.R) 


discriminiant.fisher <- function(TrnX1, TrnX2, TstX = NULL){ 
if (is.null(TstX) == TRUE) TstX <- rbind(TrnX1,TrnX2) 
if (is.vector(TstX) == TRUE) TstX <- t(as.matrix(TstX)) 
else if (is.matrix(TstX) != TRUE) 
TstX <- as.matrix(TstX) 
if (is.matrix(TrnX1) != TRUE) TrnXi1 <- as.matrix(TrnX1) 
if (is.matrix(TrnX2) != TRUE) TrnX2 <- as.matrix(TrnX2) 


nx <- nrow(TstX) 
blong <- matrix(rep(0, nx), nrow=1, byrow=TRUE, 
dimnames=list("blong", 1:nx)) 
ni <- nrow(TrnX1); n2 <- nrow(TrnX2) 
mul <- colMeans (TrnX1); mu2 <- colMeans (TrnX2) 
S <- (ni-1)*var(TrnX1) + (n2-1)*var (TrnX2) 
mu <- ni/(ni+n2)*mul + n2/(ni+n2)*mu2 
W <- (TstX-rep(1,nx) ho mu) %*% solve(S, mu2-mu1); 
for (i in 1:nx)t 
if (w[i] <= 0) 
blong[i] <- 1 
else 
blong[i] <- 2 
} 
blong 
} 
在 程序 中 ， 输 入 变量 TrnX1 、 TrnX2 表示 Xi 类 、 Xs 类 训练 样本 ， 其 输入 格式 
是 数据 框 ， 或 矩阵 (样本 按 行 输入 ). TstX 是 待 测 样本 ， 其 输入 格式 是 数据 框 ， 或 
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矩阵 (样本 按 行 输入 ), 或 向 量 (一 个 待 测 样本 )， 如 果 不 输入 TstX( 缺 省 值 ), 则 待 
测 样 本 为 两 个 训练 样本 之 和 ， 即 计算 训练 样本 的 回 代 情况 .函数 的 输出 是 由 “1” 
和 “2” 构 成 的 的 一 维和 矩阵 ，“1” 表 示 待 测 样本 属于 Xi 类 ，“2” 表 示 待 测 样本 
属于 Xs 类 . 
例 8.5 用 Fisher 判别 解 例 8.1. 
解 : 输入 数据 ( 见 程 序 exam0801 .RR), 调用 函数 discriminiant .fisher(). 

> source("discriminiant.fisher.R") 
> discriminiant.fisher(classX1, classX2) 

12345678910 11 12 13 14 15 16 17 18 19 20 21 22 
blong 111111111 1 1 1 2 2 2 2 2 2 2 2 2 2 

23 24 25 26 27 28 29 30 31 32 33 34 35 
blong 2 2 2 2 2 1 1 2 2 2 2 2 2 


将 训练 样本 回 代 进行 判别 ， 有 两 个 点 判 错 ， 分 别 是 第 28, 29 号 样本 . 
对 于 多 类 的 Fisher 判别 ， 其 基本 原理 是 相同 的 ， 这 里 就 不 介绍 了 . 


8.2 聚 类 分 析 
来 类 分 析 (Nsteranalysia)j 是 一 类 将 数据 所 研究 对 象 进行 分 类 的 统计 方法 . 


这 一 类 方法 的 共同 特点 是 : 事先 不 知道 类 别 的 个 数 与 结构 ; 据 以 进行 分 析 的 数据 
是 对 和 象 之 间 的 相似 性 LE Gree SO ne | 












人 相 异 ) 性 数据 看 成 是 天 
入 一 类 ， 不 同类 之 间 的 对 象 距离 较 i 法 的 共同 思路 ， 
ee 型 


类 分 析 是 指 对 样本 进行 聚 类 ， BR 型 聚 类 分 析 是 指 对 变量 进行 聚 类 分 析 ， 
8.2.1 ”距离 和 相似 系数 

聚 类 分 析 是 研究 对 样本 或 变量 的 聚 类 ， 在 进行 聚 类 时 ， 可 使 用 的 方法 有 很 
多 ,而 这 些 方法 的 选择 往往 与 变量 的 类 型 是 有 关系 的 ， 由 于 数据 的 来 源 及 测量 方 
法 的 不 同 ， 变 量 大 致 可 以 分 为 两 类 

(1) 定量 变量 . 也 就 是 通常 所 说 的 连续 量 ， 如 长 度 、 重 量 、 产 量 、 人 口 、 速 度 
和 温度 等 ， 它 们 是 由 测量 或 计数 、 统 计 所 得 到 的 量 ， 这 些 变量 具有 数值 特征 ， 称 
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为 定量 变量 . 
(2) 定性 变量 ， 这些 量 并 非 真有 数量 上 的 变化 ， 而 只 有 性 质 上 的 差异 ， 这 些 
量 还 可 以 分 为 两 种 ， 一 种 是 有 序 变量 ， 它 没有 数量 关系 ， 只 有 次 序 关系 ， 如 某 种 
品 分 为 一 等 品 、 二 等 品 、 三 等 品 等 ， 矿 石 的 质量 分 为 贫 矿 和 富矿 ， 另 一 种 是 名 
义 变量 ， 这 种 变量 即 无 等 级 关系 ， 也 无 数量 关系 ， 如 天 气 ( 阴 、 晴 ), 性 别 ( 男 、 
女 ) 、 职 业 (工人 、 农 民 、 教 师 、 干 部 ) 和 产品 的 型 号 等 





























1. 距离 
设 xix 为 第 ;个 样本 的 第 天 个 指标 ， 数 据 矩 阵 如 表 8.3 所 示 . 在 表 8.3 中 ， 
表 8.3: 数据 矩阵 
样本 二 
化 1 XTX2 Tp 
1 Z11 X12 1p 
2 Z21 T22 T2p 
nN Tnl TLn2 Tnp 





每 个 样本 有 2 个 变量 ， 故 每 个 样本 可 以 看 成 是 fr 中 的 一 个 点 ， 7 个 样本 就 是 
R? 中 的 n 个 点 . 在 2 中 需要 定义 某 种 距离 ， 第 i 个 样本 与 第 7 个 样本 之 间 的 
距离 记 为 di 在 聚 类 过 程 中 ,距离 较 近 的 点 倾向 于 归 为 一 类 ， 距离 较 远 的 点 应 归 
属 不 同类 .所 定义 的 距离 一 般 满足 如 下 四 个 条 件 : 

(1) qi; > 0, 对 一 切 i,; 

(2) dz = 0, 当 且 仅 当 第 i 个 样本 与 第 7 个 样本 的 各 变量 值 相同 ; 

(3) di; = dji, 对 一 切 ?7 

(4) di; < di + dj, 对 一 切 i, j,k. 


对 于 距离 最 常用 的 有 以 下 几 种 : 
(1) 绝对 值 距离 
k=1 


绝对 值 距离 也 称 为 “棋盘 距离 ”或 “城市 街区 ”距离 . 
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(2) Euclide 距离 


p 
> _(z Tik 一 Tjk)? ， (8.58) 
k=1 

这 就 是 通常 意义 下 的 距离 . 

(3) Minkowski 距离 
p 1/g 
dij(q) = De 若 0 1 (8.59) 
k=1 


不 难看 出 绝对 值 距离 和 Euclide 距离 是 Minkowski 距离 的 特例 . 

当 各 变量 世 不 辐 或 泊 ee Minkowski 
距离 、 而 应 先 对 各 变量 的 数据 作 标准 化 处 理 ， 然 后 再 用 标准 化 后 的 
算 ._ 

(4) Chebyshev ( 切 比 雪夫 ) 距离 














dij(00) = ms [vir — Tjrl, (8.60) 


是 Minkowski 距离 中 9 一 co 的 情况 
(5) Mahalanobis 距离 


di(M) = V (x0 — 70)) 5 (TG) — £0)), (8.61) 


其 中 x6) = (zal) Xi2; ;Xip) 00 二 (Xj1) Xj2，,"… ,Xjp) ,5S 为 样本 方差 矩阵 . 

用 Mahalanobis 距离 的 好 处 是 考虑 到 各 变量 之 间 的 相关 性 , 并 且 与 变量 的 单 
位 无 关 . 但 Mahalanobis 距离 有 一 个 很 大 的 缺 聊 ， 就 是 Mahalanobis 距离 公式 中 
的 S 难以 确定 . 

(6) Lance 和 Williams 距离 

en — Zin (8.62) 


< Tik + Tjk 


人 i = 1,2,...,n, j= 1,2,...,p. 
均 要 求 变量 是 定量 变量 下面 介 绍 种 定性 变 : 量 距 离 的 
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(7) 定性 变量 样本 间 的 距离 

在 数量 化 的 理论 中 , 常 将 定性 变量 称 为 项 目 , 而 将 定性 变量 的 各 种 不 同 的 取 
“ 值 ' 称 为 类 目 . We 性 别 是 项 目 ,而 男 或 女 是 这 个 项 目的 类 目 . 体形 也 是 一 个 
项 目 ， 而 适中 、 胖 、 瘦 、 壮 等 是 这 个 项 目的 类 目 . 设 样本 





ZO = (0i(1,1),0i(1,2),..:, 60:(2,71),0:(2,1),0i(2,2),..:,0i(2,72), 
,0i(m, 1), 0i(m, 2),-…,， 6(m, rm)),, i = 1,2,...,n, 


其 中 m 为 样本 的 个 数 ，m 为 项 目的 个 数 ，rx 为 第 大 个 项 目的 类 目 数 ，mi 十 ro 十 
… 十 7mm 一 力 ， 
0 第 i 个 样本 中 第 个 项 目的 数据 为 第 1 个 类 目 时 ， 
”0o， 香 则 . 


称 6;(k, 1) 为 第 大 个 项 目 之 ! 类 在 第 i 个 样本 中 的 反应 

例如 ,考虑 项 目 1 为 性 别 ， 其 目 类 为 男 、 女 . 项 目 2 为 外 语种 类 ， 其 目 类 为 
英 、 日 、 德 、 俄 . 项 目 3 为 专业 ， 其 目 类 为 统计 、 会 计 、 金 融 . 项目 4 为 职业 ， 
其 目 类 为 教师 、 工 程 师 . 现 有 两 个 样本 ,第 一 个 人 是 男性 ， 所 学 外 语 是 英语 ， 所 
学 专业 是 金融 ， 其 职业 是 工程 师 ; 第 二 个 人 是 女性 ， 所 学 外 语 是 英语 ， 所 学 专业 
是 统计 ， 其 职业 是 教师 . 表 8.4 给 出 相应 的 项 目 、 类 目 和 样本 的 取 值 情况 . 这 里 


表 8.4: 下 类 i 

















n=2,m=4,71=2,7r2=4,7r3=3,74=2,p»=11. 

设 有 两 个 样本 zxG),20), 奉 0i(k,1) = 0;(k,1) 二 1, 则 称 这 两 个 样本 在 第 个 
项 目的 第 ! 类 目 上 1 一 1 配对 ; 者 6i(k,1) = 6;(k,1) = 0, 则 称 这 两 个 样本 在 第 
个 项 目的 第 1 类 目 上 0 一 0 配对 ; 奉 6;(k, 1) 关 6;(k,4), 则 称 这 两 个 样本 在 第 个 
项 目的 第 1 类 目 上 不 配对 . 
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记 mi 为 x6) 和 0) 在 m 个 项 目 所 有 类 目 中 1 一 1 配对 的 总 数 ，mo 为 0 一 0 
配对 的 总 数 ， m2 为 不 配对 的 总 数 ， 显 然 ， 有 


7720 十 7101 十 7122 一. 





样本 za 和 zj) 之 间 的 距离 可 以 定义 为 


7772 


dij 一 





(8.63) 


mi 十 m2 


对 于 表 8.4 中 的 数据 ，mo = 4, mi = 1, m2 = 6. 因此 ， 距 离 为 di2 = 6/7 = 
0.8571429. 
在 R 软件 中 ， 函数 给 出 了 各 种 距离 的 计算 结果 ， 其 使 用 格式 为 


dist(x, method = "euclidean', 


diag = FALSE, upper = FALSE, p = 2) 

其 中 x 是 样本 构成 的 数据 守 阵 (样本 按 行 输入 ) 或 数据 框 . method 表示 计算 距 
离 的 方法 ， 缺 省 值 为 Buclide 距离 ， 所 定义 的 距离 有 

"euclidean" 一 Euclide 距离 ， 即 按 公 式 (8.58) 计算 . 

"maximum" 一 Chebyshev 距离 ， 即 按 公 式 (8.60) 计算 . 

"manhattan" 一 绝对 值 距离 ， 即 按 公 式 (8.57) 计算 . 

"canberra" 一 Lance 距离 . 事实 上 ， 它 是 Lance 距离 的 扩充 ， 并 不 要 求 

zi > 0, 计算 公式 为 





(8.64) 


"minkowski" 一 Minkowski 人 p 是 Minkowski 距离 的 阶 数 ， 
即 公式 (8.59) 中 的 9. 
e "binary" 一 定性 变量 的 距离 ， 按 公式 (8.63) 计算 . 
diag 是 逻辑 变量 ， 当 diag = TRUE 时 , 给 出 对 角 线 上 的 距离 。 upper 是 逻 
辑 变量 ， 当 upper = TRUE 时 ， 给 出 上 三 角 和 矩阵 的 值 ( 缺 省 值 仅 给 出 下 三 角 和 矩阵 
的 值 ) 








2. 数据 中 心 化 与 标准 化 变换 


在 作 聚 类 分 析 过 程 中 , 大 多 数 数据 往往 是 不 能 直接 参与 运算 的 ， 需 要 多 将 数 
据 作 中 心 化 或 标准 化 处 理 . 
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(1) 中 心 化 变换 ， 称 


Di; = Vij — Ty, i = 1,2,.…,n, 7 三 12 ;2D (8.65) 


为 中 心 化 变换 ， 其 中 x; = 二 ou 变换 后 数据 的 均值 为 0, 方差 阵 不 变 . 
(2) 标准 化 变换 称 


Vij = Ti 
) 


一 


订 1 一 1 2 0 7 一 1 2 2 (8.66) 


5j 


为 标准 化 变换 ， 其 中 古 = wz 3; = 二 i (wy 一 三? 变换 后 数据 ， 每 个 
一 1 = 


变量 的 样本 均值 为 0, 标准 差 为 1, 而 且 标 准 化 后 的 数据 与 变量 的 量 纲 无 关 . 
在 RR 软件 中 ， 可 用 函数 作 数 据 的 中 心 化 或 标准 化 ， 其 使 用 格式 为 


scale(x, center = TRUE, scale = TRUE) 


其 中 x 是 样本 构成 的 数据 矩阵 . ”center 是 逻辑 变量 ， TRUE( 缺 省 值 ) 表示 对 
数据 作 中 心 化 变换 ， FALSE 表示 不 作 变 换 . scale 是 逻辑 变量 ， TRUE( 缺 省 
值 ) 表示 对 数据 作 标 准 化 变换 ， FALSE 表示 不 作 变 换 . 对 应 于 公式 (8.65) 的 计 
算 函 数 为 x* = scale(x，scale = FALSE); 对 应 于 公式 (8.66) 的 计算 函数 为 


TX* 一 Scale(x). 


(3) 极 差 标准 化 变换 ， 称 











二 二 i=1,2,.…,n, 7 一 12 (8.67) 
Ry 
为 极 差 标准 化 变换 ， 其 中 局 = max zx -min zj. 变换 后 数据 , 每 个 变量 的 样 


本 均值 为 0, 极 差 为 1, 且 |z%| < 1, 在 以 后 的 分 析 计 算 中 可 以 减少 误差 的 产生 ， 
同时 变换 后 的 数据 也 是 无 量 纲 的 量 . 
在 及 软件 中 ， 可 用 EResp() 函 数 作 极 差 标准 化 变换 ， 其 变换 过 程 如 下 ; 


center <- sweep(x, 2, apply(x, 2, mean)) 


R <- apply(x, 2, max) - apply(x,2,min) 





x_star <- sweep(center, 2, R, "/") 
其 中 x 是 样本 构成 的 数据 秆 阵 ， 第 一 行 是 将 数据 中 心 化 ， 即 式 (8.65). 第 二 行 是 
计算 极 差 Rj, 7 = 1,2,…,p. 第 三 行 是 将 中 心 化 后 的 数据 除 以 极 差 ， 得 到 数据 的 
极 差 标准 化 数据 . 
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在 上 述 命令 中 用 到 sweep() 函数 ， sweep() 函数 对 数组 或 矩阵 进行 运算 ， 
其 运算 格式 为 
sweep(x, MARGIN, STATS, FUN="-", ...) 
其 中 x 是 数组 或 矩阵 ， MARGIN 是 运算 的 区 域 ， 对 于 矩阵 来 讲 ， 1 表示 行 ，2 表 
示 列 . STATS 是 统计 量 ， 如 apply(x，2，mean) 表示 各 列 的 均值 。 FUN 表示 范 
数 的 运算 ， 缺 省 值 为 减法 运算 . 
从 sweep() 函数 的 规则 可 知 ， 如 果 将 命令 中 的 第 三 行 改 为 
x_star <- sweep(center, 2, sd(x), "/") 
得 到 的 就 是 (普通 ) 标准 化 变换 后 的 数据 . 
(4) 极 差 正规 化 变换 .， 称 


SEE Thj 
25 一 7=1,2,..,n, j=1,2,...,p (8.68) 
Ri 


为 极 差 正规 化 变换 ， 其 中 Rj = max zkj 一 min zj. 变换 后 数据 0 < zx < 1, 极 
差 为 1, 也 是 无 量 纲 的 量 . 

利用 sweep() 函数 ， 可 以 很 容易 得 到 数据 的 极 差 正规 化 变换 ， 其 变换 过 程 
如 下 : 





center <- sweep(x, 2, apply(x, 2, min)) 
R <- apply(x, 2, max) - apply(x,2,min) 
x_star <- sweep(center, 2, R, "/") 
其 中 x 是 样本 构成 的 数据 矩阵 . 
3. 相似 系数 
聚 类 分 析 方法 不 仅 用 来 对 样本 进行 分 类 ， 而 且 可 用 来 对 变量 进行 分 类 , 在 对 
变量 进行 分 类 时 ， 常 用 相似 系数 来 度量 变量 之 间 的 相似 程度 . 
设 ci; 表示 变量 X; 和 X; 间 的 相似 系数 ， 一 般 要 求 : 
(1) ci; = 士 1 当 且 仅 当 X; = aX; (a #0); 
(2) |ci| < 1, 对 一 切 ij 成立; 
(3) ci = es 切 i,j 成 立 . 


针 Xi 和 Xj 越 接近 0, 则 两 者 关系 越 划 
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(1) 夹 角 余弦 . 变量 Xi 的 Nn 次 观测 值 为 (ZL Z2i , Tni), 则 Xi 与 Xj 的 夹 
角 余 弱 称 为 两 向 量 的 相似 系数 ， 记 为 cij(1), 即 


(8.69) 





i 0 zj 当 Xi 和 XX; 平行 时 ， ci(1) = 土 1 说 明 这 两 
包 乞 
向 量 完全 相似 ， 当 XX 和 X) 正 交 时 ， c(1) 二 0 说明 这 两 向 量 不 相关 . 
在 R 软件 中 ， 可 HO 酚 数 完成 两 向 量 夹 角 余弦 的 计算 ， 其 计算 公式 
如 下 








y <- scale(x, center = F, scale = T)/sqrt(nrow(x)-1) 
C <- t(y) %*%h y 
其 中 x 是 样本 构成 的 数据 窍 阵 ，C 是 由 式 (8.69) 计算 相 出 的 似 系 数 构成 的 矩阵 . 
注意 ， 由 于 标准 化 变换 除 的 是 5;, 而 公式 (8.69) 需要 除 (| 工 , 相差 Vi 一 I 
=1 
音 ， 故 计算 公式 中 还 需 再 除 上 Vn 一 1. 
(2) 相关 系数 . 相关 系数 就 是 对 数据 作 标 准 化 处 理 后 的 夹 角 余弦 ， 也 就 是 变 
量 X; 和 变量 X; 的 相关 系数 7ij, 这 里 记 为 ci;(2), 即 


Dow — Ti) (Tkj — Hj) 
人 (8.70) 


和 (Tri — Ti)? (Zp; Tj;)? 


其 中 而 = 二 wi 硬 = 二 沁 wiy. 当 65(2) = 二 时 表示 两 变量 线性 相关 . 
在 软件 中 ， cy(2) 的 计算 更 加 方便 ， 即 样本 的 相关 算 阵 ， 


其 中 并 是 样本 构成 的 数据 矩阵 . 
变量 之 间 常 借助 于 相似 系数 来 定义 距离 ， 如 令 
di = 1— cs. (8.71) 


有 时 也 用 相似 系数 来 度量 样本 间 的 相似 程度 . 
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8.2.2 ”系统 聚 类 法 


系统 聚 类 方法 (Hierarchical clustering methi6d) 是 珍 类 分 析 诸 方法 中 用 得 最 
多 的 一 种 ， 其 基本 思想 是 : 开始 将 n 个 样本 各 目 作为 一 类 ， 并 规定 样本 之 间 的 距 
离 和 类 与 类 之 间 的 距离 ， 然后 将 距离 最 近 的 两 类 合并 成 一 个 新 类 ,计算 新 类 与 其 
他 类 的 距离 ;重复 进行 两 个 最 近 类 的 合并 ， 每 次 减少 一 类 ， 直 至 所 有 的 样本 合并 
为 一 类 . 

以 下 用 dz 表示 第 i 个 样本 与 第 7] 个 样本 的 距离 ，G1,G2,… 表示 类 ， DkL 
表示 Gk 与 Gz 的 距离 . 在 下 面 所 介绍 的 系统 聚 类 法 中 ， 所 有 的 方法 一 开始 每 个 
样本 自 成 一 类 ， 类 与 类 之 间 的 距离 与 样本 之 间 的 距离 相同 ， 即 Dkz = dxkz, 所 以 
最 初 的 距离 矩阵 全 部 相同 ， 记 为 Do = (dz). 


1. 最 短 距 离 法 
定义 类 与 类 之 间 的 距离 为 两 类 最 近 样 本 间 的 距离 ， 即 








万 二 = dij. (8.72) 


min 
iEGK,jEGL 
称 这 种 系统 聚 类 法 为 最 短 距 离 法 (single linkage method). 


当 某 步骤 类 Gk 和 Gr 合并 为 Gm 后 ， 按 最 短 距离 法 计算 新 类 Gy 与 其 他 
类 GJ 的 类 间距 离 ， 其 弟 推 公式 为 


Dum; = min di;= min min (di, min dj; 
iEGMIEGJ 3 iEGK,jEGJ 3) jieGr,jEGy " 


一 min{ Dgr, DLJ}. (8.73) 
2. 最 长 距离 法 
定义 类 与 类 之 间 的 距离 为 两 类 最 远 样 本 间 的 距离 ， 即 


INax 
iEGK,IjEGL 


称 这 种 系统 聚 类 法 为 最 长 上 距离 法 (complete linkage method). 
当 某 步骤 类 Gk 和 GL 合并 为 Gx 后 ， 则 Gi 与 任 一 类 Gy 距离 为 


Dm = max{Dkr, Dry}. (8.75) 
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3. 中 间距 离 法 

类 与 类 之 间 的 距离 即 不 取 两 类 最 近 样 本 的 距离 ， 也 不 取 两 类 最 远 样本 的 距 
离 ， 而 是 取 介 于 两 者 中 间 的 距离 ， 称 为 中 间距 离 法 (median method). 

设 某 一 步 将 Gk 和 Gz 合并 为 Gm, 对 于 任 一 类 Gj, 考虑 由 Dkr, Diy 和 
Dkj 为 边 长 组 成 的 三 角形 (如 图 8.2 所 示 ), 取 Dkz 边 的 中 线 作为 Dyj. 由 初等 


GK 
DkKJ 


DKkL 
DM 


G G 
7 7 L 





图 8.2: 中 间距 离 法 的 几何 表示 
平面 几何 可 知 ， Dx 的 计算 公式 为 


1 1 1 
Di = 3 DK 十 3 Os 4Dkr (8.76) 


这 就 是 中 间距 离 法 的 递 推 公式 . 
中 间 法 可 推广 为 更 一 般 的 情形 ， 将 式 (8.76) 中 三 项 的 系数 依赖 于 某 个 参数 
PD, 即 


Des (Dr (8.77) 
其 中 6 < 1, 这 种 方法 称 为 可 变法 . 当 6 = 0 时 ， 递 推 公 式 变 为 
1 
D377 = 3 (Dj + D?)). (8.78) 


称 此 方法 为 Mcquitty 相似 分 析 法 . 

4. 类 平均 法 

类 平均 法 (average linkage method) 有 两 种 定义 ， 一 种 定义 方法 是 把 类 与 类 
之 间 的 距离 定义 为 所 有 样本 对 之 间 的 平均 距离 ， 即 定义 Gk 和 Gz 之 间 的 距离 为 


1 
NKNL 


方 二 diyj, (8.79) 


iEGK,JEGL 
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其 中 ng 和 nz 分 别 为 类 Gk 和 GL 的 样本 个 数 ， dz 为 Gx 中 样本 i 与 Gr 中 
的 样本 7 之 间 的 距离 .容易 得 到 它 的 一 个 递 推 公式 : 











1 
Dm = dij 
VMTN icGaryecy 
1 
-|( Dr 
M') \ieGg,jEGy iEGL,jEG 
NK NL 
= —Dgy+— Dry. (8.80) 
NM NM 





男 一 种 定义 方法 是 定义 类 与 类 之 间 的 平方 距离 为 样本 对 之 间 平 方 距离 的 平 
均值 ， 即 


1 
Dir 二 一 0 (8.81) 
NEKNL iEGK,IEGL 
NM NM 


类 平均 法 较 好 在 利用 了 所 有 样本 之 间 的 信息 ， 在 很 多 情况 下 , 它 被 认为 是 一 
种 较 好 的 系统 聚 类 法 . 
在 递 推 公式 (8.82) 中 ， DAr 的 影响 没有 被 反映 出 来 ， 为 此 可 将 该 递 推 公式 
进一步 推广 为 
Ds = 0-8) (ED + ED ) + BD (8.83) 
其 中 8 < 1, 称 这 种 系统 聚 类 法 为 可 变 类 平均 法 . 
5. 重心 法 


类 与 类 之 间 的 距离 定义 为 它们 的 重心 (均值 ) 之 间 的 Euclide 距离 . 设 Gk 和 
GL 的 重心 分 别 为 ZK 和 ZL, 则 Gk 与 GL 之 间 的 平方 距离 为 





Dr (Rs (8.84) 


TKTL 


这 种 系统 聚 类 方法 称 为 重心 法 (centroid hierarchical method). 它 的 递 推 公式 为 


NKNL 





NK NL 
DD —D?;,— D2 8.85 
MY BR LJ 到 KL ( ) 
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重心 法 在 处 理 异 常 值 方 面 比 其 他 系统 类 法 更 稳健 , 但 是 在 别 的 方面 一 般 不 如 
类 平均 法 或 离 差 平方 和 法 的 效果 好 . 

6. 离 差 平方 和 法 (Ward 方法 ) 

离 平方 和 法 是 Ward(1936) 提出 的 , 也 称 为 Ward 法 . 它 基 于 方差 分 析 思 想 ， 
如 果 类 分 得 正确 , 则 同类 样本 之 间 的 离 差 平方 和 应 当 较 小 , 不 同类 样本 之 间 的 离 
差 平方 和 应 当 较 大 . 

设 类 Gk 和 GL 合并 成 新 的 类 Gm, 则 GK, GL, Gm 的 离 差 平方 和 分 别 是 


Wxk = > (ZO) 三 Zk) (za 一 元 K)， 


iEGK 

Wr = (x0) -Er) (0 — Tr), 
i€EGL 

Wu = >》 (za 一 Far)7(zo — Tm), 
iEGM 


其 中 Zk 、Zzr 和 Zw 分 别 是 Gk 、Gr 和 Ga 的 重心 . 所 以 Wk 、Wzr 和 Ww 
反映 了 各 自 类 内 样本 的 分 散 程度 . 如 Gk 和 Gz 这 两 类 相距 较 近 ， 则 合并 后 所 增 
加 的 离 差 平方 和 Ww 一 Wx 一 Wiz 应 较 小 ， 否 则 ， 应 较 大 .于 是 定义 Gk 和 GL 
之 间 的 平方 距离 为 

DE = Wa — We — Wri. (8.86) 
这 种 系统 聚 类 法 称 为 离 差 平方 和 法 或 Ward 方法 (Ward’s minimum variance 
method). 它 的 递 推 公 式 为 





Nn 二 nL 2 NJ 
D 
LJ 








NTNEK 
Dy = DE + 
7 Nm 7 十 AM 





二 8.87 
Dk (8.87) 


Gk 和 GL 之 间 的 平方 距离 也 可 以 写成 


NKN 
DY = (Bk — BL) (Fk — BL). (8.88) 
M 








可 见 , 这 个 距离 与 由 式 (8.84) 给 出 的 重心 法 的 距离 只 相差 一 个 常数 倍 . 重心 法 的 
类 间距 与 两 类 的 样本 数 无 关 , 而 离 差 平方 和 法 的 类 间距 与 两 类 的 样本 数 有 较 大 的 
关系 ， 两 个 大 类 倾向 于 有 较 大 的 距离 ， 因 而 不 易 合 并 ， 这 更 符合 对 聚 类 的 实际 要 
求 . 离 差 平方 和 法 在 许多 场合 下 优 于 重心 法 ， 是 比较 好 的 一 种 系统 聚 类 法 ， 但 它 
对 异常 值 很 敏感 . 
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7. 系统 聚 类 的 R 软件 计算 


在 R 软件 中 ， 上 EastGO 函数 提供 了 系统 聚 类 的 计算 ， plot() 函数 可 画 出 
系统 聚 类 的 树 形 图 (或 称 为 谱系 图 ， dendrogram). 

hclust() 函数 的 使 用 格式 为 

hclust(d, method = "complete", members=NULL) 

其 中 a 是 由 "dist" 构成 的 距离 结构 . method 是 系统 聚 类 的 方法 ( 缺 省 是 最 长 
距离 法 ), 其 参数 有 

"single" 一 最 短 距 离 法 ， 即 公式 (8.72)-(8.73). 

"complete" 一 最 长 距离 法 ， 即 公式 (8.74)-(8.75). 

"median" 一 中 间距 离 法 ， 即 公式 (8.76). 

mmcquitty” 一 Mequitty 相似 法 ， 即 公式 (8.78) 

"average" 一 类 平均 法 ， 这 里 采用 的 是 公式 (8.79)-(8.80). 

"centroid" 一 重心 法 ， 即 公式 (8.84)-(8.85). 
wwardn 离 差 平方 和 法 ， 即 公式 (8.86) (8.87). 








members 缺 省 信 为 NULL, 或 与 d 有 相同 变量 长 度 的 回 量 ， 具 体 使 用 方法 请 见 
在 线 帮助 . 
plot() 函数 画 出 谱系 图 的 格式 为 
plot(x, labels = NULL, hang = 0.1， 


axes = TRUE, frame.plot = FALSE, ann = TRUE， 
main = "Cluster Dendrogram", 
sub = NULL, xlab = NULL, ylab = "Height", ... 
其 中 久 是 由 (HemistO 函数 生成 的 对 象 ， liang 是 表明 谱系 图 中 各 类 所 在 的 位 
置 ， 当 hang 取 负 值 时 ， 谱 系 图 中 的 类 从 底部 画 起 ， 其 他 参数 的 意义 请 见 在 线 帮 
助 . 
下 面 通 过 一 些 简单 的 例子 来 说 明 系 统 聚 类 方法 ， 以 及 及 函数 的 使 用 方法 . 
例 8.6 设 有 五 个 样本 ， 每 个 样本 只 有 一 个 指标 ,分 别 是 1,2,6,8,11, 样本 间 的 距 
离 选用 Buclide 距离 ， 试 用 最 短 距离 法 、 最 长 距离 法 等 方法 进行 聚 类 分 析 ， 并 画 
出 相应 的 谱系 图 . 
解 : 用 Euclide 距离 计算 各 样本 点 间 的 距离 ， 用 最 短 距离 法 、 最 长 距离 法 、 
中 间距 离 法 和 Mcquitty 相似 法 进行 聚 类 分 析 ， 并 画 出 四 种 方法 的 谱系 图 ， 而 且 
将 四 个 谱系 图 画 在 一 个 图 上 . 











8.2 聚 类 分 本 


以 下 是 R 语句 (程序 名 : 


#### 输入 数据 ， 生 成 距离 结构 
x<-c(1,2,6,8,11); dim(x)<-c(5,1); d<-dist(x) 





#### 生成 系统 聚 类 


exam0806 .BR) 


hcl<-hclust(d，"single"); hc2<-hclust(d, "complete") 


hc3<-hclust(d, "median"); hc4<-hclust(d, "mcquitty") 





#### 绘 出 所 有 树 形 结构 图 ， 并 以 2 x 2 的 形式 绘 在 一 张 图 上 
c(2，2)) 

plot (hci,hang=-1); plot(hc2,hang=-1) 

plot (hc3,hang=-1); plot(hc4,hang=-1) 





opar <- par(mfrow = 


par (opar) 
画 出 的 图 形 如 图 8.3 所 示 . 
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hclust (*, "complete") 
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图 8.3: 四 种 不 同 距 离 的 谱系 图 


481 


482 第 八 章 应 用 多 元 分 析 (1 


与 绘 谱系 图 有 关 的 函数 还 有 ES saeadrogran() 其 意思 是 将 系统 聚 类 得 到 的 
对 象 强制 为 谱系 图 ， 它 的 使 用 格式 为 
as.dendrogram(object, hang 
其 中 object 是 由 hclust 得 到 的 对 象 ， 在 此 时 ， plot() 函数 的 用 法 为 
plot(x, type = c("rectangle", "triangle'"), 
center = FALSE, 





edge.root = is.leaf(x) || !is.null(attr(x,'"edgetext")), 


nodePar = NULL, edgePar = list(), 

leaflab = c("perpendicular", "textlike", "none"), 

dLeaf = NULL, xlab = "", ylab = "", xaxt = "n", yaxt = "s", 
horiz = FALSE, frame.plot = FALSE, ...) 


其 中 x 是 由 dendrogranm 得 到 的 对 象 . type 表示 画 谱系 图 的 类 型 ，"Trectangle" 
是 矩形 ( 缺 省 值 ), "triangle" 为 三 角形 . horiz 是 逻辑 变量 ， 当 horiz=TRUE 
时 ， 表 示 谱 系 图 水 平 放 置 . 其 他 参数 见 在 线 帮 助 . 
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图 8.4: 不 同 参数 下 的 谱系 图 
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以 下 命令 可 以 帮助 我 们 理解 有 关 参 数 的 意义 ， 所 绘图 形 如 图 8.4 所 示 . 
dend1i<-as.dendrogram(hc1) 
opar <- par(mfrow = c(2, 2),mar = c(4,3,1,2)) 
plot (dend1) 
plot(dend1i, nodePar=list(pch = c(1,NA), cex=0.8, lab.cex=0.8), 
type = "t", center=TRUE) 
plot(dend1, edgePar=list(col = 1:2, lty = 2:3), 
dLeaf=1, edge.root = TRUE) 
plot(dend1i, nodePar=list(pch = 2:1, cex=.4*2:1, col=2:3), 
horiz=TRUE) 
par (opar) 
例 8.7 对 305 名 女 中 学 生 测量 八 个 体型 指标 ， 相 应 的 相关 矩阵 如 表 8.5 所 示 ， 
将 相关 系数 看 成 相似 系数 ， 定 义 距 离 为 


用 最 长 距离 法 作 系统 分 析 . 


表 8.5: 各 对 变量 之 间 的 相关 系数 
身高 手 悄 长 上 肢 长 下 肢 长 体重 颈 围 胸围 胸 宽 





21 02 23 24 25 Xe 07 28 
身高 | 1.000 
手 民 长 | 0.846 1.000 
上 肢 长 | 0.805 0.881 1.000 
下 肢 长 | 0.859 0.826 ”0.801 1.000 
体重 | 0.473 0.376 0.380 0.436 1.000 
人 颈 围 |0.398 0.326 0.319 0.329 0.762 1.000 
胸围 |0.301 0.277 0.237 0.327 0.730 0.583 1.000 
胸 宽 |0.382 0.277 0.345 0.365 0.629 0.577 0.539 1.000 


解 ， 输入 相关 系数 矩阵 ， 在 作 谱 系 图 中 ， 用 到 前 面 讲 过 的 浮 数 hclust ()， 
as.dendrogram() 和 plot(). 为 了 使 谱系 图 画 的 更 好 看 ， 还 增加 一 个 自 编 的 函 
数 . 下 面 是 相应 的 及 程序 (程序 名 :” exam0807.R) 
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#### 输入 相关 和 矩阵 


x<-c(1.000, 0.846, 0.805, 0.859, 0.473, 0.398,，0.301,，0.382,， 
0.846, 1.000, 0.881, 0.826, 0.376,，0.326, 0.277,，0.277,， 
0.805, 0.881, 1.000, 0.801, 0.380,，0.319, 0.237,，0.345,， 
0.859, 0.826, 0.801, 1.000, 0.436,，0.329, 0.327,，0.365,， 
0.473，0.376，0.380，0.436，1.000，0.762，0.730，0.629 ， 
0.398，0.326，0.319，0.329，0.762，1.000，0.583，0.577， 
0.301，0.277，0.237，0.327，0.730，0.583，1.000，0.539 ， 
0.382，0.415，0.345，0.365，0.629，0.577，0.539，1.000) 


names<-c(" 身高 "," 手册 长 "," 上 胶 长 "," 下 胶 长 "，" 体重 "，" 颈 图 "， 
"胸围 "," 胸 宽 ") 
r<-matrix(x, nrow=8, dimnames=list (names, names)) 
#### 作 系 统 聚 类 分 析 ， 
#### 函数 ESRGHSEG)J 的 作用 是 将 普通 矩阵 转化 为 聚 类 分 析 几 的 距离 结构 . 
d<-as.dist(1-r); hc<-hclust(d); dend<-as.dendrogram(hc) 
HH# 写 一 段 小 程序 ， 其 目的 是 在 绘图 命令 中 调用 它 ， 使 谱系 图 更 好 看 ， 
np<-list(col=3:2, cex=c(2.0, 0.75), pch= 21:22, 
bg= c("light blue", "pink"), 
































lab.cex = 1.0, lab.col = "tomato') 
addE <- function(n){ 
if(!lis.leaf (n)){ 
attr(n,"edgePar")<-list(p.col="plum") 


attr(n,"edgetext")<-paste(attr(n,"members"),'"members'") 


} 

#### 画 出 谱系 图 . 

de <- dendrapply(dend, addE); plot(de, nodePar= nP) 
所 绘图 形 如 图 8.5 所 示 . 

从 上 面 的 谱系 图 (图 8.5) 容易 看 出 ， 变 量 zz( 手 臂 长 ) 与 xz3( 上 肢 长 ) 最 先 合 
并 成 一 类 . 接 下 来 是 变量 zi( 号 高 ) 与 z4( 下 及 长 ) 合并 成 一 类 . 再 合并 就 是 将 新 
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图 8.5: 八 个 体型 指标 的 谱系 图 


得 到 的 两 类 合并 成 一 类 (可 以 称 为 “长 ”类 ). 后 面 要 合并 的 是 zs( 体 重 ) 与 zs( 须 
围 ). 再 合并 就 是 将 x7( 胸 围 ) 加 到 新 类 中 ， 再 加 就 是 xs( 胸 宽 ). 最 后 合并 为 一 类 . 

8. 类 个 数 的 确定 

在 聚 类 过 程 中 类 的 个 数 如 何 确定 才 是 适宜 的 呢 ? 这 是 一 个 十 分 困难 的 问题 ， 
至 今 仍 未 找到 令 人 满意 的 方法 , 但 这 又 是 一 个 不 可 回避 的 问题 . 目前 基本 的 方法 
有 三 种 . 

(1) 给 定 一 个 立 值 ， 通 过 观察 谱系 图 ， 给 出 一 个 你 认为 的 阐 值 7, 要 求 类 与 
类 之 间 的 距离 要 大 于 7. 

(2) 观测 样本 的 散 点 图 ， 对 于 二 维 或 三 维 变量 的 样本 ， 可 以 通过 观测 数据 的 
散 点 图 来 确定 类 的 个 数 . 

(3) 使 用 统计 量 ， 通过 一 些 统计 量 来 确定 类 的 个 数 . 

(4) 根据 谱系 图 确定 分 类 个 数 的 准则 . 

Bemirmen (1972) 提出 了 根据 研究 目的 来 确定 适当 的 分 类 方法 ， 并 提出 一 些 
根据 谱系 图 来 分 析 的 准则 : 
准则 A 各 类 重心 的 距离 必须 很 大 ; 
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准则 B 确定 的 类 中 ， 各 类 所 包含 的 元 素 都 不 要 太 多 ; 
准则 C 类 的 个 数 必须 符合 实用 目的 ; 
准则 D 车 采用 几 种 不 同 的 聚 类 方法 处 理 ， 则 在 各 自 的 率 类 图 中 应 发 现 相同 的 
类 ， 
在 及 软件 中 ， 与 确定 类 的 个 数 有 关 的 函数 是 EEcEsiclust(O) 函数 ， 它 的 本 
质 是 由 给 定 类 的 个 数 或 给 定 阔 值 来 确定 聚 类 的 情况 ， 其 使 用 格式 为 








其 中 tree 是 由 hclust 生成 的 结 k 是 类 的 个 数 . h 是 谱系 图 中 的 阐 值 ， 要 
求 分 成 的 各 类 的 距离 大 于 h. border .是 数 或 向 量 标明 和 矩形 框 的 颜色 . 
对 于 八 个 体型 指标 的 聚 类 分 析 中 ( 见 例 8.7), 将 变量 分 为 三 类 ， 即 有 = 3, 其 
程序 和 计算 结果 如 下 : 
plclust(hc, hang=-1); re<-rect.hclust(hc, k=3) 
得 到 身高 (z1), 手臂 长 (z2), 上 肢 长 (z3), 下 及 长 (24) 分 为 第 一 类 ， 胸 宽 (zs) 为 
第 二 类 ， 体 重 (xs), 须 围 (x6), 胸围 (z7) 分 为 第 三 类 .其 图 形 如 图 8.6 所 示 . 
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图 8.6: 八 个 体型 指标 的 谱系 图 和 聚 类 情况 


在 上 述 程序 中 ，plclust() 函数 是 男 一 种 绘 谱 系 图 的 函数 ， 与 plot () 函数 
所 画图 形 略 有 差别 ， 其 具体 使 用 格式 如 下 : 
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plclust(tree, hang=0.1, unit=FALSE, level=FALSE, hmin=0, 
square=TRUE, labels=NULL, plot. = TRUE, 
axes = TRUE, frame.plot = FALSE, ann = TRUE， 
main = "", sub = NULL, xlab=NULL, ylab="Height") 


中 tree 是 由 hclust() 函数 生成 的 对 象 ， 其 他 参数 与 plot () 函数 中 的 参数 相 
同 . 
9. 实例 
下 面 用 一 个 具体 的 实例 来 总 结 前 面 介绍 的 聚 类 分 析 的 方法 . 
例 8.8 表 8.6 列 出 了 1999 年 全 国 31 个 省 、 市 、 自 治 区 的 城镇 居民 家 庭 平均 每 
人 全 年 消费 性 支出 的 八 个 主要 指标 (变量 ) 数据 . 这 入 个 变量 是 
食品 24 一 医疗 保健 Z6 一 娱乐 教育 文化 服务 
Z2 一 衣着 25 一 交通 与 通讯 27 一 居住 
Z3 一 家 庭 设备 用 品 及 服务 Ts 一 杂项 商品 和 服务 
分 别 用 最 长 距离 法 、 类 平均 法 、 重 心 法 和 Ward 方法 对 各 地 区 作 聚 类 分 析 . 


Xl 


表 8.6: 31 个 省 、 市 、 自 治 区 消费 性 支出 数据 


TX1 TX2 03 04 Ts Xe TX7 8 

北京 | 2959.19 730.79 749.41 513.34 467.87 1141.82 478.42 457.64 
天 津 | 2459.77 495.47 697.33 302.87 284.19 735.97 570.84 305.08 
河北 | 1495.63 515.90 362.37 285.32 272.95 540.58 364.91 188.63 
山西 | 1046.33 477.77 290.15 208.57 201.50 414.72 281.84 212.10 
内 蒙古 | 1303.97 524.29 254.83 192.17 249.81 463.09 287.87 192.96 
辽宁 |1730.84 553.90 246.91 279.81 239.18 445.20 330.24 163.86 
吉 1561.86 492.42 200.49 218.36 220.69 459.62 360.48 147.76 
黑龙 江 | 1410.11 510.71 211.88 277.11 224.65 376.82 317.61 152.85 
上 海 | 3712.31 550.74 893.37 346.93 527.00 1034.98 720.33 462.03 


浙江 | 2629.16 557.32 689.73 435.69 514.66 795.87 575.76 323.36 
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表 8.6( 继 ): 31 个 省 、 市 、 自 治 区 消费 性 支出 数据 


1844.78 430.29 271.28 126.33 250.56 513.18 314.00 151.39 
2709.46 428.11 334.12 160.77 405.14 461.67 535.13 232.29 
1563.78 303.65 233.81 107.90 209.70 393.99 509.39 160.12 
1675.75 613.32 550.71 219.79 272.59 599.43 371.62 211.84 
1427.65 431.79 288.55 208.14 217.00 337.76 421.31 165.32 
1783.43 511.88 282.84 201.01 237.60 617.74 523.52 182.52 
1942.23 512.27 401.39 206.06 321.29 697.22 492.60 226.45 
3055.17 353.23 564.56 356.27 811.88 873.06 1082.82 420.81 
2033.87 300.82 338.65 157.78 329.06 621.74 587.02 218.27 
2057.86 186.44 202.72 171.79 329.65 477.17 312.93 279.19 
2303.29 589.99 516.21 236.55 403.92 730.05 438.41 225.80 
1974.28 507.76 344.79 203.21 240.24 575.10 430.36 223.46 
1673.82 437.75 461.61 153.32 254.66 445.59 346.11 191.48 
2194.25 537.01 369.07 249.54 290.84 561.91 407.70 330.95 
2646.61 839.70 204.44 209.11 379.30 371.04 269.59 389.33 
1472.95 390.89 447.95 259.51 230.61 490.90 469.10 191.34 
1525.57 472.98 328.90 219.86 206.65 449.69 249.66 228.19 
1654.69 437.77 258.78 303.00 244.93 479.53 288.56 236.51 
1375.46 480.99 273.84 317.32 251.08 424.75 228.73 195.93 
1608.82 536.05 432.46 235.82 250.28 541.30 344.85 214.40 


四 川 
贵州 
云南 
西藏 
陕西 
甘肃 


者 
月 


下 受 

新 疆 

解 : 移 输 入 数据 ， 在 作 聚 类 分 析 之 前 ， 为 同等 地 对 竺 每 个 变量 ， 消 除数 据 在 
数量 级 的 影响 ， 对 数据 作 标 准 化 . 然后 ,用 hclust () 作 聚 类 分 析 ,， 用 plot () 画 
数 画 出 谱系 图 ， 最 后 用 rect .hclust() 将 地 区 分 成 5 类 . 


下 面 是 相应 的 R 程序 (程序 名 :” exam0808.R). 
#### 用 数据 框 形式 输入 数据 


X<-data.frame( 
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xl=c(2959.19，2459.77，1495.63，1046.33，1303.97，1730.84， 
1561.86，1410.11，3712.31，2207.58，2629.16，1844.78， 
2709.46，1563.78，1675.75，1427.65，1783.43，1942 .23， 
3055.17，2033.87，2057.86，2303.29，1974.28，1673.82， 
2194.25，2646.61，1472.95，1525.57，1654.69，1375.46， 
1608.82) ， 
X2=c(730.79，495.47，515.90，477.77，524.29，553.90，492.42， 
510.71，550.74，449.37，557.32，430.29，428.11，303.65， 
613.32，431.79，511.88，512.27，353.23，300.82，186.44， 
589.99，507.76，437.75，537.01，839.70，390.89，472.98， 
437.77，480.99，536.05) ， 
X3=c(749.41，697.33，362.37，290.15，254.83，246.91，200.49， 
211.88，893.37，572.40，689.73，271.28，334.12，233.81， 
550.71，288.55，282.84，401.39，564.56，338.65，202.72， 
516.21，344.79，461.61，369.07，204.44，447.95，328.90， 
258.78，273.84，432.46) ， 
Xx4=c(513.34，302.87，285.32，208.57，192.17，279.81，218.36， 
277.11，346.93，211.92，435.69，126.33，160.77，107.90， 
219.79，208.14，201.01，206.06，356.27，157.78，171.79， 
236.55，203.21，153.32，249.54，209.11，259.51，219.86， 
303.00，317.32，235.82) ， 
X5=c(467.87，284.19，272.95，201.50，249.81，239.18，220.69， 
224.65，527.00，302.09，514.66，250.56，405.14，209.70， 
272.59，217.00，237.60，321.29，811.88，329.06，329.65， 
403.92，240.24，254.66，290.84，379.30，230.61，206.65， 
244.93，251.08，250.28) ， 
x6=c(1141.82, 735.97, 540.58, 414.72, 463.09,，445.20,，459.62, 
376.82，1034.98，585.23，795.87，513.18，461.67，393.99， 
599.43，337.76，617.74，697.22，873.06，621.74，477.17， 
730.05，575.10，445.59，561.91，371.04，490.90，449.69， 
479.53，424.75，541.30) ， 
Xx7=c(478.42，570.84，364.91，281.84，287.87，330.24，360.48， 
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317.61，720.33，429.77，575.76，314.00，535.13，509.39， 
371.62，421.31，523.52，492.60，1082.82，587.02，312.93， 
438.41，430.36，346.11，407.70，269.59，469.10，249.66， 
288.56，228.73，344.85) ， 
X8=c(457.64，305.08，188.63，212.10，192.96，163.86，147.76， 
152.85，462.03，252.54，323.36，151.39，232.29，160.12， 
211.84，165.32，182.52，226.45，420.81，218.27，279.19， 
225.80，223.46，191.48，330.95，389.33，191.34，228.19， 
236.51，195.93，214.40) ， 
row.names=c(" 北京 "，" 天津"，" 河北"，" 山西 "，" 内 蒙古 "， 

"辽宁 "，" 吉林 "，" 黑龙 江 "，" 上 海 "，" 江苏 "，" 浙江 "， 
" 安徽 "，" 福建 "，" 江西 "，" 山东 "，" 河南 "，" 湖北 "， 
"湖南 "，" 广东 "，" 广西 "," 海南 "，" 重庆 "，" 四川"， 
"贵州 "，" 云南 "," 西藏 "，" 陕西 "，" 甘肃 "，" 青海 "， 
"宁夏 "，" 新 疆 ") 

) 

#### 生成 距离 结构 ， 作 系统 聚 类 

d <- dist(scale(X)) 

hci <- hclust(d) ; hc2 <- hclust(d, "average'") 

hc3 <- hclust(d, "centroid'"); hc4 <- hclust(d, "ward") 

#### 绘 出 谱系 图 和 聚 类 情况 (最 长 距离 法 和 类 平均 法 ) 

opar<-par (mfrow=c(2,1), mar=c(5.2,4,0,0)) 











plclust(hci, hang=-1); reli<-rect.hclust(hci, k=5, border="red") 

plclust (hc2, hang=-1); re2<-rect.hclust(hc2, k=5, border="red") 

par (opar) 

其 结果 如 图 8.7 所 示 . 
按照 最 长 距离 法 得 到 的 五 类 分 别 是 : 

第 一 类 :西藏 

第 二 类 : 河北 、 山 西 、 内 锭 古 、 辽 宁 、 吉 林 、 黑 龙 江 、 江 苏 、 安 徽 、 福 建 、 江 西 、 
山东 、 河 南 、 湖 北 、 湖 南 、 广 西 、 海 南 、 重 庆 、 四 川 、 贯 州 、 云 南 、 陕 西 、 甘 
肃 、 青 海 、 宁 夏 、 新 疆 








8.2 聚 类 分 析 491 










































































Oo Se 
ee. i Fi 站 
| F 下 三 P 
这 
局) 三 已 握 所 一 区 二子 二 匡 世 台 E 避 回回 了 二 二 市 二 可 而 OS 
-二 己 xX SXFKRT.I.S vo 加 | 
© os cIANnXo 了 Esc<oOSS8SE&S Ed 于 
工 E 襄 忆 与 222 E55 2E 三 S28 238ESEsS 
TLIOLTIVHTISEES 03STI 工 己 dbs 
LL CC oO 二 DVTSI~OCc—SO 0 
与 工 山 SICOCc GZ .Ses 二 后 Sci cmo 
5 5 5 TE S563 WE x 上 
寺 EE 5 六 | 5 
乙 宙 OO 
工 
Province 
hclust (*, "complete") 
© < 
co 了 
Ee ey 到 
这 2 
已 之 区 过 这 贡 二 可 币 可 三 瑟 世 加 卫 二 了 EC 可口 回回 瑟 世 [©] 
DD 关 G6XxXxG0n5cmEc 了 PSgxDnxc5 本 cccoOS 所 
了 5 SCZH 3 RIES 3 5 
所 56G63 工 和 OD 工 二 <NEccggso "oi S = 
与 目 ScI-Oc-S 雯 三 三 〇 SO 工 © DTTS 也 
CO TE x O02 Tz 5F SG 司 
万 加 2 
工 
Province 
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图 8.7: 消费 性 支出 数据 的 谱系 图 和 聚 类 结果 (1) 


第 三 类 : 广东 
第 四 类 : 天 津 、 浙 江 
第 五 类 : 北京 、 上 海 
按照 类 平均 法 得 到 的 五 类 分 别 是 : 


第 一 类 : 西藏 

第 二 类 : 天津、 河北 、 山 西 、 内 蒙古 、 辽 宁 、 吉 林 、 黑 龙 江 、 江 苏 、 安 徽 、 福 建 、 
江西 、 山 东 、 河 南 、 湖 北 、 湖 南 、 广 西 、 海 南 、 重 庆 、 四 川 、 贵州 、 云 南 、 陕 
西 、 甘 肃 、 青 海 、 宁 夏 、 新 疆 

第 三 类 : 广东 

第 四 类 : 上 海 

第 五 类 北京、 浙江 
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#### 绘 出 谱系 图 和 聚 类 情况 (重心 法 和 Ward 法 ) 
opar<-par (mfrow=c(2,1), mar=c(5.2,4,0,0)) 





plclust (hc3,hang=-1); re3<-rect.hclust (hc3,k=5,border="red") 
plclust (hc4,hang=-1); re4<-rect.hclust(hc4,k=5,border="red") 
par (opar) 


其 结果 如 图 8.8 所 示 . 
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Province 
hclust (*, "ward") 


图 8.8: 消费 性 支出 数据 的 谱系 图 和 聚 类 结果 (2) 


按照 重心 法 得 到 的 五 类 分 别 是 : 

第 一 类 :西藏 

第 二 类 天津、 河北 、 山 西 、 内 蒙古 、 辽 宁 、 吉 林 、 黑 龙 江 、 江 苏 、 安 徽 、 福 建 、 
江西 、 山 东 、 河 南 、 湖 北 、 湖 南 、 广 西 、 海 南 、 重 庆 、 四 川 、 贵州 、 云 南 、 陕 
西 、 甘 肃 、 青 海 、 宁 夏 、 新 疆 








8.2 聚 类 分 析 493 


第 三 类 :广东 
第 四 类 : 上海 
第 五 类 : 北京 、 浙 江 
按照 离 差 平方 和 法 (Ward 法 ) 得 到 的 五 类 分 别 是 : 
第 一 类 北京、 上海、 浙江 、 广 东 
第 二 类 ， 西藏 
第 三 类 天津 、 河 北 、 江 苏 、 山 东 、 湖 北 、 湖 南 、 重 庆 、 四 川 、 云 南 、 新 疆 
第 四 类 :山西 、 内 蒙古、 辽宁、 吉林、 黑龙江、 甘肃、 青海 、 宁 夏 
第 五 类 : 安徽 、 福 建 、 江 西 、 河 南 、 广 西 、 海 南 、 贵 州 、 陕 西 
四 种 方法 得 到 的 类 有 的 是 相同 的 ， 有 的 是 不 相同 的 ， 可 以 根据 具体 的 数据 与 
背景 再 进一步 确定 认同 哪 种 聚 类 是 较为 合理 的 . 








8.2.3 ”动态 聚 类 法 


系统 聚 类 法 一 次 形成 类 以 后 就 不 能 改变 , 这 就 要 求 一 次 分 类 分 得 比较 准确 ， 
对 分 类 的 方法 提出 较 高 的 要 求 , 相应 的 计算 量 自然 也 较 大 . 如 Q 型 系统 聚 类 法 ， 
聚 类 的 过 程 是 在 样本 间距 离 窍 阵 的 基础 上 进行 ， 当 样本 容量 很 大 时 ， 需 要 占据 
足够 大 的 计算 机 内 存 , 而 且 在 并 类 过 程 中 , 需要 将 每 类 样本 和 其 他 样本 间 的 距离 
逐一 加 以 比较 ， 以 决定 应 合并 的 类 别 ,需要 较 长 的 计算 时 间 . 所 以 对 于 大 样本 问 
题 ， Q 型 系统 聚 类 法 可 能 会 因 计 算 机 内 存 或 计算 时 间 的 限制 而 无 法 进行 计算 ， 
这 给 应 用 带 来 一 定 的 不 便 . 基于 这 种 情况 ， 产 生 了 动态 聚 类 ， 即 动态 聚 类 法 . 

动态 聚 类 又 称 为 逐步 聚 类 法 ， 其 基本 思想 是 ， 开 始 先 粗略 地 分 一 下 类 ， 然 后 
按照 某 种 最 优 原则 修改 不 合理 的 分 类 ， 直 至 类 分 得 比较 合理 为 止 , 这样 就 形成 一 
个 最 终 的 分 类 结果 . 这 种 方法 具有 计算 量 较 小 , 占 计 算 机 内 存 较 少 和 方法 简单 的 
优点 ， 适 用 于 大 样本 的 Q 型 聚 类 分 析 . 

关于 动态 聚 类 法 的 算法 这 里 就 不 作 介绍 了 ， 任 何 一 本 《多 元 分 析 》 的 教科 
书 ， 均 有 此 方面 的 内 容 ， 如 果 需 要 的 话 ， 读 者 可 以 看 这 方面 的 参考 书 . 这 里 介绍 
用 于 动态 聚 类 的 R 函数 一 kmeans() 函数 . 

kmeans() 函数 采用 的 是 天 -- 均值 方法 , 是 采用 逐个 修改 方法 , 最 早 由 Mac- 
Queen 在 1967 年 提出 来 ， 随 后 许多 人 对 此 作 了 许多 改进 . kmeans() 函数 的 使 
用 格式 为 


kmeans(x, centers, iter.max = 10, nstart = 1, 
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algorithm = c("Hartigan-Wong", "Lloyd", 
"Forgy", "MacQueen'")) 


其 中 x 是 由 数据 构成 的 窍 阵 或 数据 框 ， centers 是 聚 类 的 个 数 或 者 是 初始 类 的 
中 心 。 iter .max 为 最 大 迄 代 次 数 ( 缺 省 值 为 10)、 nstart 随机 集合 的 个 数 ( 当 
centers 为 聚 类 的 个 数 时 ).， algorithm 为 动态 聚 类 的 算法 ( 缺 省 值 Hartigan- 
Wong 方法 ). 


例 8.9 KK 一 均值 方法 ( kmeans() 函数 ) 对 例 8.8 给 出 的 31 个 省 、 市 、 自 治 区 
的 消费 水 平 进行 聚 类 分 析 . 


解 : 与 例 8.8 一 样 ， 为 消除 数据 数量 级 的 影响 ， 先 对 数据 作 标 准 化 处 理 ， 然 
后 再 用 kmeans() 函数 作 动态 聚 类 ， 为 与 前 面 的 方法 作 比较 ， 类 的 个 数 选 择 为 5. 
算法 选择 "Hartigan-Wong", 即 缺 省 状态 . 


km <- kmeans(scale(X), 5, nstart = 20); km 
得 到 


K-means clustering with 5 clusters of sizes 1, 1, 16, 10, 3 
Cluster means : 
x1 X2 X3 X4 X5 
1.8042004 -1.12776493 0.9368961 1.2959544 3.90904835 
1.1255255 2.91079330 -1.0645632 -0.4082114 0.53291392 
.7008593 -0.33291790 -0.5450901 -0.2500165 -0.54749319 
0.2646918 0.04585518 0.2487958 -0.3405821 -0.01812541 
1.8790347 1.02836873 2.1203833 2.1727806 1.49972764 
x6 x7 X8 
1.6014419 3.8803141 2.01876530 
-1.0476079 -0.9562089 1.66126641 
.6131804 -0.5420723 -0.57966702 
0.2587437 0.2874133 -0.02413414 
2.2232050 0.9583064 1.94532737 


oO WW ODD -~ 
| 
OO 


oO WW DD -~ 
1 
OO 


Clustering vector: 
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北京 ”天津 河北 山西 内 蒙古 辽宁 吉林 黑龙 江 上 海 江苏 浙江 


5. 过 8 3 3 3 3 3 5， -入 二 
安徽 福建 江西 山东 河南 湖北 湖南 广东 广西 海南 重庆 
3 4 3 4 3 4。 到 1 机 ,对 : 逆 
四 川 贵州 云南 西藏 陕西 甘肃 育 海 宁夏 新 疆 
和 3 3 ”3 3 8 


Within cluster sum of squares by cluster: 
[1] 0.00000 0.00000 30.14432 22.12662 10.19134 
Available components: 


[1] "cluster" 'centers" "withinss'" "size" 


这 里 size 表示 各 类 的 个 数 ， means 表示 各 类 的 均值 ， Clustering 表示 聚 类 后 
的 分 类 情况 . 
为 便于 看 出 聚 类 后 的 分 类 情况 ， 用 sort() 函数 (sort (km$cluster)) 对 分 
类 起 先 情况 排序 ， 并 整理 得 到 
第 一 类 ， 广东 
第 二 类 :西藏 
第 三 类 : 河北、 山西、 内蒙古、 辽宁、 吉林 、 黑 龙 江 、 安 徽 、 江 西 、 河 南 、 海 南 、 
人 贵州、 陕西、 甘肃 、 青 海 、 宁 夏 、 新 疆 
第 四 类 :， 天津、 江苏 、 福 建 、 山 东 、 湖 北 、 湖 南 、 广 西 、 重 庆 、 四 川 、 云 南 
第 五 类 北京、 上海、 浙江 








习题 八 


8.1 根据 经 验 ， 今天 与 昨天 的 湿度 差 XX 及 今天 的 压 温差 (气压 与 温度 之 差 ) 
Xs 是 预报 明天 下 雨 或 不 下 雨 的 两 个 重要 因素 . 现 有 一 批 已 收集 的 数据 资料 , 如 表 
8.7 所 示 . 今 测 得 Zi = 8.1, x2 = 2.0, 试问 预报 明天 下 雨 还 是 预报 明天 不 下 雨 ? 
分 别 用 距离 判别 、 Bayes 判别 (考虑 方差 相同 与 方差 不 同 两 种 情况 ) 和 Fisher 
判别 来 得 到 你 所 需要 的 结论 . 
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表 8.7: 湿度 差 与 压 温差 数据 


非 雨 天 
XX1 (湿度 差 ) Xa( 压 温差 ) 

一 1.9 0.2 
一 6.9 7.5 
5.2 14.6 
5.0 8.3 
7.3 0.8 
6.8 4.3 
0.9 10.9 

一 12.5 13.1 
1.5 12.8 
3.8 10.0 





8.2 茶 医院 研究 心电图 指标 对 健康 人 ( T)、 硬 化 症 患 者 ( 1) 和 冠 心病 患者 
( 77 ) 的 鉴别 能 力 ， 现 获得 训练 样本 如 表 8.8 所 示 . 试用 距离 判别 ( 考虑 方差 
相同 与 方差 不 同 两 种 情况 )、 Bayes 判别 ( 考虑 方差 相同 与 方差 不 同 两 种 情况 ， 
且 先 验 概率 为 11/23,，7/23, 5/23 ) 对 数据 进行 分 析 . 


表 8.8: 3 类 23 人 的 心电图 指标 数据 
LX4 
7.36 
5.99 
6.11 
4.35 
8.79 
8.53 
10.02 
9.79 


Oo ~ 中 GO 本 WW OO 一 
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ee 现 利用 1990 年 全 国人 中 普 
数据 对 全 国 30 个 省 、 直 辖 市 、 自 治 区 进行 聚 类 分 析 . 原始 数据 如 表 8.9 所 示 . 
析 选 用 了 三 个 指标 : (1) 大 学 ， 点 全 部 人 口 的 比例 (DXB2); 
(2) 初中 文化 程度 的 人 口 占 全 部 人 口 的 比例 (C2ZB2); (3) 文盲 半 文 盲人 口 占 全 部 
人 口 的 比例 (WMB2Z) 分 别 用 来 反映 较 高 、 中 等 、 较 低 文化 程度 人 口 的 状况 ， 

(1) 计算 样本 的 Buclide 距离 ， 分 别 用 最 长 距离 法 、 均 值 法 、 重 心 法 和 Ward 
法 作 聚 类 分 析 ， 并 画 出 相应 的 谱系 图 ， 如 果 将 所 有 样本 分 为 4 类， 试 写 出 各 种 方 
法 的 分 类 结果 

ee 类 结果 . 


和 查 
分 


8.4 对 48 位 应 聘 者 数据 ( 见 第 三 章 例 3.17 中 的 表 3.5) 的 自 变 量 作 聚 类 分 析 ， 
选择 变量 的 相关 系数 作为 变量 间 的 相似 系数 (ci;), 距离 定义 为 dij = 1 一 cij. 分 别 
用 最 长 距离 法 、 均 值 法 、 重 心 法 和 Ward 法 作 聚 类 分 析 ， 并 画 出 相应 的 谱系 图 . 
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表 8.9: 1990 年 全 国人 口 普查 文化 程序 人 中 比例 


9.30 
4.67 
0.96 
1.38 
1.48 
2.60 
2.15 
2.14 
6.53 
1.47 
1.17 
0.88 
1.23 
0.99 
0.98 


如 果 将 所 有 变量 分 为 5 类 ， 试 写 出 各 种 方法 的 分 类 结果 . 


30.55 
29.38 
24.69 
29.24 
25.47 
32.32 
26.31 
28.46 
31.59 
26.43 
23.74 
19.97 
16.87 
18.84 
25.18 





DXBZ 
0.85 
1.57 
1.14 
1.34 
0.79 
1.24 
0.96 
0.78 
0.81 
0.57 
1.67 
1.10 
1.49 
1.61 
1.85 


CZBZ 
26.55 
23.16 
22.57 
23.04 
19.14 
22.53 
21.65 
14.65 
13.85 
3.85 
24.36 
16.85 
17.76 
20.27 
20.66 


WMBZ 
16.15 
15.79 
12.10 
10.45 
10.61 
13.97 
16.24 
24.27 
25.44 
44.43 
17.62 
27.93 
27.70 
22.06 
12.75 


第 九 章 ”应 用 多 元 分 析 (II) 


前 面 一 章 介 绍 了 判别 分 析 和 聚 类 分 析 , 这 两 种 方法 均 是 处 理 数据 分 类 问题 . 
本 章 介绍 多 元 分 析 的 另 一 部 分 内 容 一 主 成 分 分 析 、 因 子 分 析 和 典型 相关 分 析 . 
这 三 种 方法 的 共同 点 是 对 数据 作 降 维 处 理 ， ee 
这 公共 部 分 进行 分 析 和 处 理 ， 得 到 我 们 需要 的 结 

与 上 一 章 相同 ， 人 
析 和 典型 相关 分 析 ， 而 对 于 各 种 分 析 所 用 到 的 概念 只 作 简 单 介绍 . 


9.1 主 成 分 分 析 


主 成 分 分 析 (Prineip 引 Component anialysis) 是 将 多 指标 化 为 少数 儿 个 综合 指 
标的 一 种 统计 分 析 方 法 ， 是 由 Pearson(1901) 提出 ,后 来 被 Hotelling(1933) 发 展 
了 . 主 成 分 分 析 是 一 种 通过 降 维 技术 把 多 个 变量 化 成 少数 几 个 主 成 分 的 方法 . 这 
些 主 成 分 能 够 发 映 原 始 变 量 的 绝 大 部 分 信息 , 它们 通常 表示 为 原始 变量 的 线性 组 


2 
日 


9.1.1 总 体 主 成 分 
1. 主 成 分 的 定义 与 导出 
设 XX 是 bp 维 随机 变量 ,并 假设 y= EB(X), = Var(X). 考虑 如 下 线性 变换 


Zi1=alxX 
Zs =alX 
| ， (9.1) 
2 
易 见 
Var(2Zi) = alYa;, 1i1=1,2,...,%, (9.2) 
Cov(2i,2;) = alYa;, i,j=1,2,.…,p, i¥7. (9.3) 


我 们 希望 21 的 方差 达到 最 大 ， 即 ai 是 约束 优化 问题 
max al Ya 


Ss.t. ala=1 
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的 解 . 因此 , ail 是 光 最 大 特征 值 (不 妨 设 为 Xi) 的 特征 向 量 . 此 时 , 称 Z1 = af 为 
第 一 主 成 分 . 类 似 地 , 希望 Zo 的 方差 达到 最 大 , 并 且 要 求 Cov(21, 22) = of Ya = 
0. 由 于 ao 是 Ai 的 特征 向 量 ， 所 以 ， 选 择 的 as 应 与 a1 正 交 .类 似 于 前 面 的 推 
导 ，a2 是 工 第 二 大 特征 值 (不 妨 设 为 和 2) 的 特征 向 量 ， 称 22 = a3 闵 为 第 二 主 
成 分 . 
一 般 情况 . 对 于 协 方差 阵 >, 存在 正 交 阵 %, 将 它 化 为 对 角 阵 ， 即 
和 1 
和 2 


六 es (9.4) 
和» 

且 入 二 和 2 二 … > 和 y. 则 和 窍 阵 8 的 第 ; 列 就 对 应 于 ai, 相应 的 2i 为 第 i 主 成 
分 . 

2. 主 成 分 的 性 质 

关于 主 成 分 有 如 下 性 质 : 

(1) 主 成 分 的 均值 和 协 方差 阵 . 

记 





Z1 和 1 
Z2 和 2 


由 于 
2Z = QTX, (9.5) 


所 以 有 
= E(Z)= E(Q"X)=Q E(X)= Qh, 


VU 
Var(2Z) = QVar(X)Q = Q’%Q=A. 


(2) 主 成 分 的 总 方差 
由 于 
tr(A) = tr(QTEQ) = tr(2997) = tr(5), 
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所 以 ， 
DD 或 D va = Dv 


其 中 oz 是 协 方差 阵 的 第 i 个 对 角 元 素 . 由 此 可 以 看 出 ， 主 成 分 分 析 把 p 个 原 
始 变量 X1, X2,.…,Xy 的 总 方差 分 解 成 了 p 个 不 相关 变量 21, 22,…, 和 的 方差 
之 和 . 

称 总 方差 中 第 i 主 成 分 Zi 的 比例 MAX 为 主 成 分 Zi 的 贡献 率 ， 第 一 
主 成 分 2 的 贡献 率 最 大 ， 表明 它 解 释 原始 变量 Xi X2 ,Xp 的 能 力 最 强 ， 而 
2 op,Z 的 解释 能 力 依次 递减 . 主 成 分 分 析 的 目的 就 是 为 了 减少 变量 的 个 
数 ， 因 而 一 般 是 不 会 使 用 所 有 的 p 个 主 成 分 ， 忽略 一 些 有 较 小 方差 的 主 成 分 ， 将 
不 会 给 总 方差 带 来 大 的 影响 ， 称 前 m 个 主 成 分 的 贡献 率 之 和 PN/ TN 为 主 
成 分 和 1, 22,…,Zm 的 累积 贡献 率 ， 它 表明 1, Fo,…,Zm 解释 Xi1, X2,:…… ,Xp 
的 能 力 ， 相 对 于 p, 通常 取 较 小 的 m, 使 得 累积 贡献 率 达 到 一 个 较 高 的 百分比 (如 
80% 至 90%). 此 时 ， ZF1, 2Z2,…,Zm 可 用 来 代替 X1, XXX 达到 降 维 的 目 
的 ， 而 信息 的 损失 却 不 多 . 

(3) 原始 变量 X; 与 主 成 分 Zi; 之 间 的 相关 系数 . 

由 于 式 (9.5), 知 





这 (9.6) 
即 
Xj; = qj1Z1+ 4;j222 二 十 qjpZp， (9.7) 
所 以 ， 
Cov(X;, 2;) a Cov (gjiZi, Zi) = GjiNi, J,1 三 工 ) 2 ,Db, (9.8) 
Cov(X;, Zi) _ VN 


p(X;, Zi) = — 7 1 三 1 2，…，D. (9.9) 


在 实际 应 用 中 ， 通 常 只 对 X; 与 2 的 相关 系数 感 兴 

(4) m 个 主 成 分 对 原始 变量 的 贡献 率 . 

前 面 提 到 的 累积 贡献 率 这 个 概念 度量 了 m 个 主 成 分 2Z1, 22,…, Zm 从 原始 
变量 Xi1, Xs, …, X, 中 提取 信息 的 多 少 ， 那 么 和 2, …, Zn 包含 有 Xi = 
1,2,…,p) 的 多 少 信息 应 该 用 什么 指标 来 度量 呢 ? 这 个 指标 就 是 Xi) 与 2 人 1, 2， 
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…, Zm 的 复 相关 系数 的 平方 ， 称 为 m 个 主 成 分 2Z1, 2Z2,…, Zm 对 原始 变量 X; 


Bi RY 0 5 (9.10) 
i 二 1 ?一 工 


对 式 (9.7) 两 边 取 方 差 ， 得 到 





0j7 = QM 十 gj2Xa + + qjp Xp, (9.11) 
由 于 十 9 十 … 十 4% 二 1, 故 0;; 实际 上 是 入 ,和 2,…, 和 y 的 加 权 平 均 . 
由 式 (9.10)- 式 (9.11), 可 以 得 到 21, 2 ,2 对 XX) 的 贡献 率 
p p 
Dime YD (Xn a (9.12) 
记 1 i=l1 
(5) 原始 变量 对 主 成 分 的 影响 . 
式 (9.5) 也 可 以 表示 成 
Li = quiX1+t qaiX2 t+ qpiXp, 
称 qj; 为 第 i 主 成 分 在 第 7 个 原始 变量 X; 上 的 载荷 (loading), 它 度量 了 Xj 对 
Zi 的 重要 程度 . 
3. 从 相关 矩阵 出 发 求 主 成 分 
当 各 变量 的 单位 不 全 相同 ， 或 虽 单位 相同 ， 但 变量 间 的 数值 大 小 相差 较 大 
时 ， 直 接 从 协 方差 阵 出 发 进行 主 成 分 分 析 就 显得 不 妥 ， 为 了 使 主 成 分 分 析 能 
够 均等 的 对 待 每 一 个 原始 变量 ,消除 由 于 单位 不 同时 可 能 带 来 的 影响 ,常常 将 原 
变量 作 标 准 化 处 理 ， 即 令 








De 
VO 


显然 ，X* = (X,Y,…, 允 ) ”的 方差 算 阵 就 是 X 的 相关 和 窍 阵 RR. 
从 相关 和 矩阵 R 出 发 导出 的 主 成 分 方法 与 从 协 方差 阵 2 出 发 的 导出 的 主 成 分 
方法 完全 类 似 ， 并 且 得 到 的 主 成 分 的 一 些 性 质 更 加 简洁 . 
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设 站 之 入 之 过 总 盖 0 为 相关 矩阵 尺 的 2 个 特征 值 ， ad o 咏 ,az 为 
相应 的 单位 特征 向 量 ， 且 相互 正 交 ， 则 相应 的 p 个 主 成 分 为 


2 
令 全 = (2 2， > 2 2” > (a1, 03, ,2), 于 是 

= 人 

关于 相关 和 矩阵 RR 的 主 成 分 有 如 下 性 质 
也 
(2) A 一 
(3) 变量 X; 与 主 成 分 Zi 之 间 的 相关 系数 
p(X;, Zi) = V MY qj, 7 = 1， 2 “, Pp: 


pm = 2 (2 -De 


Oi 2 (X37, 27) = -Da 


9.1.2 ”样本 主 成 分 
前 面 讨论 的 是 总 体 主 成 分 ， 而 在 实际 问题 中 ， 一 般 总 体 的 协 方差 阵 或 相 
关 窍 阵 慌 是 未 知 的 需要 通过 样本 来 估计 . 


设 从 (有 一 (Lk1, Th2) et ,Tpp)e (k = 1,2,.. “,n) 为 来 自 总 体 xX 的 样本 ， 记 样 
本 数据 矩阵 为 


a 
X11 X12 *** Yip X01) 

更 
X21 22 °° Xop 六 (2) 


= [Xi X,, i .Xpl], 


Tnl Xn2 ”np XE 
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其 中 X6) 表示 样本 数据 矩阵 的 各 行 ，X; 表示 样本 数据 矩阵 的 各 列 ， 所 以 ,样本 




















的 方差 矩阵 5 为 
1 有 二 二 
(Xx) — X) (KW — X) = (si)pxp, 
k=1 
其 中 
X= 二 >》 Xn 一 (Fl 二 2， ey 
k=1 
下 A _ a 
5ij 二 RT CE 
及 样本 的 相关 秆 阵 有 为 
1 * * 人 
f= 万 二 于 > Xi Xi 一 (rizjpxp， 
k=1 
其 中 
War 一 Tr2 一 YZ2 Trp— Tp 
(k) V311 ) V522 ) Spp ) 
Si 0 
i ) 3/ 1,2, ) 
人 


1. 从 5 出 发 求 主 成 分 
设 和 Ai >》 二 … 富 过 0 为 样本 协 方差 阵 9 的 特征 值 ，al, 02， 





应 的 单位 特征 向 量 ， 且 彼此 正 交 . 则 第 i 个 主 成 分 %% = ai ,i = 1,2,… 


T= (21 72 Tp) 令 
之 二 (Z1, 22) gp)t = (a1, a2,: ap) a Q7z， 


其 中 Q (al Q2) ……， ap】 天 (gi; )pxp: 
下 面 构造 样本 主 成 分 ， 令 


ZX 


,ayp 为 相 
“,b, 其 中 
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因此 样本 主 成 分 为 
ZL 212 ”2lp Z0) XQ 
Be 2 2 … 加 四 20 XQ _x0 
Snl Zn2 Znp Zi XQ 


= (Xai, Xa,,..., Xa,] 二 [21, 2 2， 


其 中 46) 表示 样本 主 成 分 的 各 行 ， 2; 表示 样本 主 成 分 的 各 列 . 
对 于 样本 主 成 分 有 如 下 性 质 ; 
(1) Var(2;) = Nj, 1 = 1,2,...,8. 
(2) Cov(Zi, 2Z;) = 0,1%,7=1,2,..,p,， i/. 
(3) 样本 总 方差 


D 5jj 二 >» Nj. 
(4) X; 与 Zi 的 样本 相关 系数 
VN 


7(X;, Zi) = a J,1 = 1,2,..:,%. 
在 实际 应 用 中 ， 常 常 将 样本 数据 中 心 化 ， 这 不 影响 样本 协 方差 阵 5. 考虑 中 
心 化 数据 甜 阵 


(Xj=X 
= Xi — XT 
> 
(X= 
其 中 1= (1,1,…,1) 7€ R", 对 应 的 主 成 分 数据 为 

Zl 212 *** Zilp 20) (Xa) = 
7 一 21 222 ”22p| 2 加 (XQ) 2 人 
Znl Xn2 App Se (Xn,) X)7Q 


2. 从 RR 出 发 求 主 成 分 
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设 科 二 息 二 … 宝 二 0 为 样本 相关 甜 阵 ER 的 特征 值 ，ai, 3,…,a; 为 
相应 的 单位 特征 向 量 ， 且 彼此 正 交 . 





令 
门人 Wr# 
其 中 Q 3 (a1, Q2， 四 a*), 因此 样本 主 成 分 为 
2 22 “Zip po 所 站 Q 
2 2 7 1 X* TQ 
A 
[(X*ai, 入"a2， ES Xa,] 27, 2， yy |， 


其 中 2 ”表示 样本 主 成 分 的 各 行 ， 2 表示 样本 主 成 分 的 各 列 . 
对 于 样本 主 成 分 有 如 下 性 质 ; 
(1) Var 到 和 7 二 1,2, “**,p. 
(2 ) SE = 0, 7,7 3 1,2,...,p, i#7. 
i 
(4) X} 与 你 的 样本 相关 系数 
rT(Xi, Zi) = VN J,1 = 1,2,..…,p. 


9.1.3 ”相关 的 R 函数 以 及 实例 
下 面 介 绍 与 主 成 分 分 析 有 关 的 函数 . 
1. princomp 函数 
作 主 成 分 分 析 最 主要 的 函数 是 princomp() 函数 ， 其 使 用 格式 为 


princomp(formula, data = NULL, subset, na.action, ...) 
其 中 formula 是 没有 响应 变量 的 公式 (类 似 回 归 分 析 . 方差 分 析 , 但 无 响应 变量 ) 
data 是 数据 框 (类 似 于 回归 分 析 、 方 差分 析 ). 或 者 

princomp(x, cor = FALSE, scores = TRUE, covmat = NULL, 








subset = rep(TRUE, nrow(as.matrix(x))), ...) 
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其 中 x 是 用 于 主 成 分 分 析 的 数据 ， 以 数值 矩阵 或 数据 框 的 形式 给 出 。 cor 是 逻 
辑 变量 ， 当 cor=TRUE 表示 用 样本 的 相关 和 矩阵 已 作 主 成 分 分 析 ， 当 cor=FALSE 
( 缺 省 值 ) 表示 用 样本 的 协 方差 阵 9 作 主 成 分 分 析 . covmat 是 协 方差 阵 ， 如 果 
数据 不 用 x 提供 ， 可 由 协 方差 阵 提供 .其 他 参数 的 意义 见 在 线 帮 助 . 
prcomp() 函数 的 意义 与 使 用 方法 与 princomp() 函数 相同 . 
2. summary 函数 
summary() 与 回归 分 析 中 的 用 法 相同 , 其 目的 是 提取 主 成 分 的 信息 ， 其 作用 
格式 为 
summary(object, loadings = FALSE, cutoff = 0.1, ...) 
其 中 object 是 由 princomp() 得 到 的 对 象 . loadings 是 逻辑 变量 , 当 loadings 
= TRUE 表示 显示 loadings 的 内 容 (具体 含义 在 下 面 的 loadings() 函数 ), 当 
loadings = FALSE 则 不 显示 . 
3. loadings 函数 
loadings() 函数 是 显示 主 成 分 分 析 或 因子 分 析 中 lo0adings( 载 集 ， 见 因子 
分 析 ) 的 内 容 . 在 主 成 分 分 析 中 ， 该 内 容 实际 上 是 主 成 分 对 应 的 各 列 ， 即 前 面 分 
析 的 正 交 和 矩阵 @. 在 因子 分 析 中 ， 其 内 容 就 是 载 答 因子 矩阵 loadings() 函数 
的 使 用 格式 为 
loadings (x) 
其 中 x 是 由 函数 princomp() 或 factanal()( 见 因子 分 析 ) 得 到 的 对 象 . 
4. predict 函数 
predict() 函数 是 预测 主 成 分 的 值 (类 似 于 回归 分 析 中 的 使 用 方法 ), 其 使 用 
格式 为 
predict(object, newdata, ...) 
其 中 object 是 由 princomp() 得 到 的 对 象 . newdata 是 由 预测 值 构 成 的 数据 
框 ， 当 newdata 缺 省 时 ， 预 测 已 有 数据 的 主 成 分 值 ， 
5. screeplot 函数 
screeplot() 函数 是 画 出 主 成 分 的 碎 石 图 ， 其 使 用 格式 为 


screeplot (x, npcs = min(10, length(x$sdev)), 


x 
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type = c("barplot", "lines'"), 

main = deparse(substitute(x)), ...) 
其 中 x 是 由 princomp() 得 到 的 对 象 .。 npcs 是 画 出 的 主 成 分 的 个 数 . type 是 
描述 画 出 的 碎 石 图 的 类 型 ，"barplot" 是 直方 图 类 型 ，"1lines" 是 直线 图 类 型 . 


6. biplot 函数 


biplot() 是 画 出 数据 关于 主 成 分 的 散 点 图 和 原 坐 标 在 主 成 分 下 的 方向 ， 其 
使 用 格式 为 

biplot(x, choices = 1:2, scale = 1, pc.biplot = FALSE, ...) 
其 中 x 是 由 princomp() 得 到 的 对 象 . choices 是 选择 的 主 成 分 ， 缺 省 值 是 第 
1 、 第 2 主 成 分 ，pc.biplot 是 逻辑 变量 ( 缺 省 值 为 FALSE), 当 pc .biplot=TRUE, 
用 Gabriel (1971) 提出 的 画图 方法 . 

7. 实例 

下 面 用 一 个 例子 说 明 前 面 介 绍 的 函数 的 使 用 方法 . 

例 9.1 (中 学 生 身 体 四 项 指标 的 主 成 分 分 析 ) 

在 某 中 学 随机 柏 取 某 年 级 30 名 学 生 ， 测 量 其 身高 (XX1) 、 体 重 (X2) 、 胸 转 
(Xs) 和 坐 高 (Xs), 数据 如 表 9.1 所 示 . 试 对 这 30 名 中 学 生 身 体 四 项 指标 数据 做 
主 成 分 分 析 . 

解 : 用 数据 框 的 形式 输入 数据 . 用 princomp() 作 主 成 分 分 析 ， 由 前 面 的 分 
析 ， 选 择 相关 和 矩阵 作 主 成 分 分 析 更 合理 ， 因 此 ， 这 里 选择 的 参数 是 cor=TRUE. 最 
后 用 summary() 列 出 主 成 分 分 析 的 值 ， 这 里 选择 loadings=TRUE. 以 下 是 相应 的 
程序 (程序 名 : exam0901 .BR). 

#### 用 数据 框 形式 输入 数据 
> student<-data.frame( 
X1=c(148，139，160，149，159，142，153，150，151，139， 
140，161，158，140，137，152，149，145，160，156， 
151，147，157，147，157，151，144，141，139，148) ， 
X2=c(41，34，49，36，45，31，43，43，42，31， 
29，47，49，33，31，35，47，35，47，44， 
42，38，39，30，48，36，36，30，32，38) ， 
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表 9.1: 30 名 中 学 生 身 体 四 项 指标 数据 
X, 人 3 Xs 


35 73 79 
47 82 79 
35 70 77 
47 74 87 
44 78 85 
42 73 82 
38 73 78 
39 68 80 
30 65 75 
48 80 88 
36 74 80 
36 68 76 
30 67 76 
32 68 73 
38 70 78 





X3=c(72, 71, 77, 67, 80, 66, 76, 77,，77，68, 
64, 78, 78, 67, 66, 73, 82, 70, 74, 78, 
73, 73, 68, 65, 80, 74, 68, 67，68, 70)，, 
X4=c(78, 76, 86, 79, 86, 76, 83, 79，80, 74, 
74, 84, 83, 77, 73, 79, 79, 77, 87, 85, 
82, 78, 80, 75, 88, 80, 76, 76, 73,78) 

) 


#### 作 主 成 分 分 析 ， 并 显示 分 析 结 果 


> Student .pr <- princomp(student, cor = TRUE) 





> summary(student .pr, loadings=TRUE) 
Importance of components: 


Comp.1 Comp.2 Comp.3 Comp.4 
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Standard deviation 1.8817805 0.55980636 0.28179594 0.25711844 
Proportion of Variance 0.8852745 0.07834579 0.01985224 0.01652747 
Cumulative Proportion 0.8852745 0.96362029 0.98347253 1.00000000 


Loadings: 

Comp.1 Comp.2 Comp.3 Comp .4 
X1 -0.497 0.543 -0.450 0.506 
X2 -0.515 -0.210 -0.462 -0.691 
X3 -0.481 -0.725 0.175 0.461 
X4 -0.507 0.368 0.744 -0.232 

在 上 述 程序 中 , 语句 student .pr <- princomp(student, cor = TRUE) 可 
以 改 成 student .pr <- princomp(”X1+X2+X3+X4，data=student ，Ccor=TRUE)， 
两 者 是 等 价 的 . 

summary() 也 数 列 出 了 主 成 分 分 析 的 重要 信息 ， Standard deviation 行 
表示 的 是 主 成 分 的 标准 差 ， 即 主 成 分 的 方差 的 开 方 ， 也 就 是 相 就 的 特征 值 Al， 
和 2， 和 3， 和 4 的 开 方 . ”Proportion of Variance 行 表 示 的 是 方差 的 贡献 率 . 
Cumulative Proportion 行 表 示 的 是 方差 的 累积 贡献 率 . 

由 于 在 summary 也 数 的 参数 中 选取 了 loadings=TRUE, 因此 列 出 了 loadings 
(载荷 ) 的 内 容 ， 它 实际 上 是 主 成 分 对 应 于 原始 变量 Xi, X2, Xs, X4 的 系数 ， 即 前 
面 介绍 的 矩阵 @. 因此 ， 得 到 





Z+ = 一 0.497XY 一 0.515XY — 0.481X* — 0.507X2, 
or Go eh 


由 于 前 两 个 主 成 分 的 累积 贡献 率 已 达到 96%, 另外 二 个 主 成 分 可 以 舍 去 ， 达 到 降 
维 的 目的 . 

第 1 主 成 分 对 应 系数 的 符号 都 相同 ， 其 值 在 0.5 左右 ， 它 反映 了 中 学 生 吴 材 
魁梧 程度 : 号 体高 大 的 学 生 ， 他 的 4 个 部 分 的 尺寸 都 比较 大 ， 因 此 ， 第 1 主 成 分 
的 值 就 较 小 (因为 系数 均 为 负 值 ); 而 身材 矮小 的 学 生 ， 他 的 4 部 分 的 尺寸 都 比较 
小 , 因此 , 第 1 主 成 分 绝对 值 就 较 大 . 我 们 称 第 1 主 成 分 为 大 小 因子 . 第 2 主 成 
分 是 高 度 与 围 度 的 差 , 第 2 主 成 分 值 大 的 学 生 表 明 该 学 生 “ 细 高 ,而 第 2 主 成 分 
值 越 小 的 学 生 表 明 该 学 生 矮 胖 ", 因此， 称 第 2 主 成 分 为 体形 因子 . 


我 们 看 一 下 各 样本 的 主 成 分 的 值 (用 predict() 函数 ). 


#### 作 预 测 


> predict(student. 


‘Oi OO OO oo OW ND 上 缚 


FF FF 上 
WW LD ~ 吕 


14 
15 
16 
17 
18 
19 
20 
21 
22 
23 
24 
25 
26 
27 


Comp.1 


.06990950 
.59526340 
.84793151 
.75996988 
.73966777 
.10583168 
.42105591 
.82583977 
.93464402 
.36463820 


2.83741916 


.60851224 
.44253342 


1.86630669 


.81347421 


0.06392983 


.55561022 
.07392251 
.52174212 
.14072377 
.79624422 
.28708321 
.25151075 
.05706032 
.08596855 
.16367555 
.37265053 
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PT) 
Comp .2 


.23813701 
.71847399 


0.38956679 
0.80604335 
0.01718087 
0.32284393 


.06053165 
.78102576 
.58469242 
.36532199 
.34875841 


0.21278728 


.16769496 
.05021384 
.31790107 
.20718448 
.70439674 
.06763418 


0.97274301 
0.02217881 


.16307887 
.35744666 


1.25555188 


.78894494 
.05775318 


0.04317932 
0.02220972 


分 分 析 


Comp.3 


.35509248 
.32813232 
.09731731 
.04945722 


0.36012615 
0.18600422 


.21093321 
.27557798 
.08814136 


0.08840476 
0.03310423 


.33398037 
.46918095 
.37720280 
.03291329 

0. 
SO 

0. 


04334340 
33126406 
02283648 


0.12164633 
0.37410972 


.12781270 
=0: 
=0: 
-0. 

0. 

0. 
-0: 


03962116 
55617325 
26552109 
62110421 
24481850 
23378320 


Comp.4 


.266120139 
.118056646 
.279482487 
.162949298 
.358653044 
.036456084 
.044223092 


0.057288572 
0.181037746 
0.045520127 


.031146930 
.210157574 
.162987830 
.358821916 
.222035112 


0.703533624 
0.007551879 
0.048606680 


.390667991 
.129548960 
.294140762 


0.080991989 
0.109068939 


.388088643 
.218939612 
.560248997 
.257399715 
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28 2.16097778 0.13733233 0.35589739 0.093123683 
29 2.40434827 -0.48613137 -0.16154441 -0.007914021 
30 0.50287468 0.14734317 -0.20590831 -0.122078819 

从 第 1 主 成 分 来 看 ， 较 小 的 几 个 值 是 25 号 样本 、 3 号 样本 和 5 号 样本 ， 
因此 说 明 这 几 个 学 生 吴 材 魁 梧 ; 而 11 号 样本 、 15 号 样本 和 29 号 样本 的 的 值 较 
大 ， 说 明 这 几 个 学 生 映 材 瘦小 . 

从 第 2 主 成 分 来 看 ， 较 大 的 几 个 值 是 23 号 样本 、 19 号 样本 和 4 号 样本 ， 
因此 说 明 这 几 个 学 生 属于 “ 细 高 ”型 ;而 17 号 样本 、 8 号 样本 和 2 号 样本 的 的 
值 较 小 ， 谨 明 这 几 个 学 生 身 材 属于 “ 矮 胖 ”型 . 

画 出 主 成 分 的 的 碎 石 图 . 

> Screeplot(student .pr,type="1ines'") 


参数 选择 的 直线 型 ， 其 图 形 如 图 9.1 所 示 . 











student.pr 
I 0 
CD 
$8 oJ 
2 do 
© 
对 
> | 
© J 
LO 
了 
ee 
© | O O 
oO 
Comp.1 Comp.2 Comp.3 Comp.4 


图 9.1: 30 名 中 学 生 身 体 指标 数据 主 成 分 的 碎 石 图 


还 可 以 画 出 关于 第 1 主 成 分 和 第 2 主 成 分 样本 的 散 点 图 ， 其 图形 如 图 9.2 所 
示 . 从 该 散 点 图 可 以 很 容易 看 出 ; 哪些 学 生 属 于 高 大 魁梧 型 ， 如 25 号 学 生 ， 哪 
些 学 生 属 于 身材 瘦小 型 ， 如 11 号 或 15 号 ; 哪些 学 生 属于 “ 细 高 ”型 如 23 号 ， 
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图 9.2: 30 名 中 学 生 身 体 指标 数据 关于 第 1 主 成 分 和 第 2 主 成 分 的 散 点 图 


哪些 学 生 属 于 “ 矮 胖 ” 型， 如 17 号 . 还 有 哪些 学 生 属 于 正常 体形 ， 如 26 号 ， 等 
等 . 


9.1.4 ” 主 成 分 分 析 的 应 用 


这 一 小 节 讲 两 个 问题 作为 主 成 分 分 析 的 应 用 , 一 个 是 变量 分 类 问题 ， 男 一 个 
是 主 成 分 回归 问题 . 


1. 主 成 分 分 类 
例 9.2 对 7128 个 成 年 男子 的 身材 进行 测量 , 每 人 各 测 得 16 项 指标 : 身高 (X1)、 
坐 高 (X2) 、 胸 围 (X3) 、 头 高 (X4) 、 裤 长 (Xs) 、 下 档 (X6) 、 手 长 (X7) 、 领 
围 (Xs) 、 前 胸 (Xe9) 、 后 人 (X10) 、 肩 厚 (X11) 、 肩 宽 (Xi2) 、 视 长 (X13)、 助 
围 (X14) 、 腰 围 (X15) 和 腿 胜 (X16). 16 项 指标 的 相关 矩 阵 已 如 表 9.2 所 示 (由 
于 相关 给 阵 是 对 称 的 ， 只 给 出 下 三 角 部 分 ) 试 从 相关 矩阵 丸 出 发 进行 主 成 分 分 
析 ， 对 16 项 指标 进行 分 类 . 
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表 9.2: 16 项 身体 指标 数据 的 相关 矩阵 
X1 AX2 Xs X4 Xs Xe Xr Xs Xo Xio AI X12 X13 X14 X15 从 16 
1.00 
0.79 1.00 
0.36 0.31 1.00 
0.96 0.74 0.38 1.00 
0.89 0.58 0.31 0.90 1.00 
0.79 0.58 0.30 0.78 0.79 1.00 
0.76 0.55 0.35 0.75 0.74 0.73 1.00 
0.26 0.19 0.58 0.25 0.25 0.18 0.24 1.00 
0.21 0.07 0.28 0.20 0.18 0.18 0.29 -0.04 1.00 
0.26 0.16 0.33 0.22 0.23 0.23 0.25 0.49 -0.34 1.00 
X11|0.07 0.21 0.38 0.08 -0.02 0.00 0.10 0.44 -0.16 0.23 1.00 
X1210.52 0.41 0.35 0.53 0.48 0.38 0.44 0.30 -0.05 0.50 0.24 1.00 
X13|10.77 0.47 0.41 0.79 0.79 0.69 0.67 0.32 0.23 0.31 0.10 0.62 1.00 
X14|10.25 0.17 0.64 0.27 0.27 0.14 0.16 0.51 0.21 0.15 0.31 0.17 0.26 1.00 
X15|0.51 0.35 0.58 0.57 0.51 0.26 0.38 0.51 0.15 0.29 0.28 0.41 0.50 0.63 1.00 
X16|0.21 0.16 0.51 0.26 0.23 0.00 0.12 0.38 0.18 0.14 0.31 0.18 0.24 0.50 0.65 1.00 





解 : 首先 输入 相关 和 窍 阵 ， 再 用 princomp() 对 相关 矩阵 作 主 成 分 分 析 ， 最 后 
画 出 各 变量 在 第 一 、 第 二 主 成 分 下 的 散 点 图 (程序 名 :exam0902 .B) 
#### 输入 数据 ， 按 下 三 角 输 入 ， 构 成 向 量 














由 | 





x<-c(1.00, 
0.79，1.00， 
0.36，0.31，1.00， 
0.96，0.74，0.38，1.00， 
0.89，0.58，0.31，0.90，1.00， 
0.79，0.58，0.30，0.78，0.79，1.00， 
0.76，0.55，0.35，0.75，0.74，0.73，1.00， 
0.26，0.19，0.58，0.25，0.25，0.18，0.24，1.00， 
0.21，0.07，0.28，0.20，0.18，0.18，0.29,-0.04，1.00， 
0.26，0.16，0.33，0.22，0.23，0.23，0.25，0.49,-0.34，1.00， 
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0.07，0.21，0.38，0.08,-0.02，0.00，0.10，0.44,-0.16，0.23， 
1.00， 
0.52，0.41，0.35，0.53，0.48，0.38，0.44，0.30,-0.05，0.50， 
0.24，1.00， 
0.77，0.47，0.41，0.79，0.79，0.69，0.67，0.32，0.23，0.31， 
0.10，0.62，1.00， 

0.25, 0.17, 0.64, 0.27, 0.27, 0.14, 0.16, 0.51, 0.21, 0.15, 
0.31，0.17，0.26，1.00， 
0.51，0.35，0.58，0.57，0.51，0.26，0.38，0.51，0.15，0.29， 
0.28，0.41，0.50，0.63，1.00， 
0.21，0.16，0.51，0.26，0.23，0.00，0.12，0.38，0.18，0.14， 
0.31, 0.18, 0.24, 0.50, 0.65, 1.00) 


#### 输入 变量 名 称 

anios et yl MX, Wa dn WB TRO, MT ng, 
人 

#### 将 矩阵 生成 相关 短 阵 


R<-matrix(0, nrow=16, ncol=16, dimnames=list(names, names)) 
for (i in 1:16){ 
for (j in 1:i){ 
R[i,j]<-x[(i-1)*i/2+j]; R[j,i]<-R[i,j] 





3 
#### 作 主 成 分 分 析 
pr<-princomp (covmat=R); load<-loadings (pr) 
#### 画 散 点 图 
plot(load[,1:2]); text(load[,1], load[,2], adj=c(-0.4, 0.3)) 
得 到 的 图 形 由 图 9.3 所 示 . 

图 9.3 中 左上 角 的 点 看 成 一 类 , 它们 是 “长 ” 类, 即 身 高 (X1) 、 坐 高 (X2) 、 
头 高 (X4) 、 裤 长 (Xs) 、 下 档 (X6) 、 手 长 (X7) 、 袖 长 (X13). 

右 下 角 的 点 看 成 一 类 ， 它 们 是 “ 围 ” 类 ， 即 身 胸围 (X3) 、 领 围 (Xs) 、 肩 厚 
Ca) 、 肋 围 (X14) 、 腰 围 (X1s) 、 腿 肚 (X16). 
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图 9.3: 16 个 变量 在 第 一 、 第 二 主 成 分 下 的 散 点 图 

中 间 的 点 看 成 一 类 , 为 体形 特征 指标 , 即 前 胸 \X9)、 后 彰 (X10) 、 肩 宽 (X12). 

2. 主 成 分 回归 

在 回归 分 析 一 章 中 ， 曾 经 讲 过 ， 当 目 变量 出 现 多 重 共 线性 时 ， 经 典 回 归 方法 
作 回 归 系 数 的 最 小 二 乘 佑 计 ， 一 般 效果 会 较 差 ， 而 采用 主 成 分 回归 能 够 殉 服 直接 
回归 的 不 足 . 下 面 用 一 个 例子 来 说 明 如 何 作 主 成 分 回归 , 并且 是 如 何 克 服 经 典 回 
归 的 不 足 . 
例 9.3 (法 国 经 济 分 析 数 据 ) 

考虑 进口 总 额 了 与 三 个 自 变量 : 国内 总 产值 XX1, 存储 量 Xo, 总 消费 量 Xs( 单 
位 为 10 亿 法 郎 ) 之 间 的 关系 现 收集 了 1949 年 至 1959 年 共 11 年 有 数据 ， 如 
表 9.3 所 示 . 试 对 此 数据 作 经 典 回归 分 析 和 主 成 分 回归 分 析 . 

解 : 输入 数据 (采用 数据 框 形式 ), 再 用 一 般 线性 回归 方法 作 回 归 分 析 (程序 
和 名: ”exam0903.R). 
#### 用 数据 框 的 形式 输入 数据 
> conomy<-data.frame( 


xl=c(149.3，161.2，171.5，175.5，180.8，190.7， 
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表 9.3: 法 国 经 济 分 析 数 据 


15.9 
16.4 
19.0 
19.1 
18.8 
20.4 
2257 
26.5 


Oi co mo 本 WW DD 


28.1 


上 一 
CD 


27.6 





一 
jt 


26.3 


202.1，212.4，226.1，231.9，239.0) ， 
x2=c(4.2, 4.1, 3.1, 3.1, 1.1, 2.2, 2.1, 5.6, 5.0, 5.1, 0.7)， 
Xx3=c(108.1，114.8，123.2，126.9，132.1，137.7， 
146.0，154.1，162.3，164.3，167.6) ， 
y=c(15.9，16.4，19.0，19.1，18.8，20.4，22.7， 
26.5，28.1，27.6，26.3) 
) 


#### 作 线 性 回归 


> lm.sol<-lm(y“x1+x2+x3,，data=conomy) 
> Summary(lm.Ssol) 
Call: 


lm(formula =y ~ xi + x2 + x3, data = conomy) 


Residuals: 


Min 1Q Median 3Q Max 
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-0.52367 -0.38953 0.05424 0.22644 0.78313 


Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) -10.12799 1.21216 -8.355 6.9e-05 *** 


x1 -0.05140 0.07028 -0.731 0.488344 

X2 0.58695 0.09462 6.203 0.000444 *** 

X3 0.28685 0.10221 2.807 0.026277 六 

Signif. codes: 0 ’***’ O.001 ’**’ 0O.01 ’*’” 0.05 2 .0.1 ”1 工 


Residual standard error: 0.4889 on 7 degrees of freedom 
Multiple R-Squared: 0.9919, Adjusted R-squared: 0.9884 
F-statistic: 285.6 on 3 and 7 DF, p-value: 1.112e-07 


从 计算 结果 可 以 看 出 ， 按 三 个 变量 得 到 回归 方程 





Y = 一 10.12799 — 0.05140X1 十 0.58695Xs。 十 0.28685 和 3. (9.14) 


仔细 分 析 方 程 (9.14), 发 现 它 并 不 合理 ， 回 到 问题 本 身 ，Y 是 进口 量 ， Xi 是 国 


内 总 产值 ， 而 对 应 系数 的 符号 确 为 俩 也 就 是 总 产值 越 高 ， 其 进口 量 
确 越 少 ， x5x5fi0R 不 he 
面 我 们 将 会 看 到 最 小 特征 值 接近 于 0) 

为 克服 多 重 共 线性 的 影响 ， 对 变量 作 作 主 成 分 回归 先 作 主 成 分 分 析 . 
#### 作 主 成 分 分 析 


> conomy.pr<-princomp(“xi+x2+x3, data=conomy, cor=T) 





> summary (conomy .pr, loadings=TRUE) 
Importance of components: 

Comp.1 Comp .2 Comp .3 
Standard deviation 1.413915 0.9990767 0.0518737839 
Proportion of Variance 0.666385 0.3327181 0.0008969632 
Cumulative Proportion 0.666385 0.9991030 1.0000000000 


9.1 主 成 分 分 析 519 


Loadings: 


Comp.1 Comp.2 Comp.3 


x1 0.706 0.707 
X2 -0.999 
X3 0.707 -0.707 


前 两 个 主 成 分 已 达到 99% 的 贡献 率 . 第 1 主 成 分 是 关于 国内 总 产值 和 总 消 
因此 称 第 1 主 成 分 为 产销 因子 . 第 2 主 成 分 只 与 存储 量 有 关 ， 称 为 存储 因 
注意 ， 


小 沸 


Ms = 0.0518737839” = 0.002690889 ~ 0， 


所 以 变量 存在 着 多 重 共 线性 . 

下 面 作 主 成 分 回归 . 首先 计算 样本 的 主 成 分 的 预测 值 ， 并 将 第 1 主 成 分 的 预 
测 值 和 第 2 主 成 分 的 预测 值 存放 在 数据 框 conomy 中 ， 然 后 再 对 主 成 分 作 回 归 分 
析 ， 其 命令 格式 如 下 
#### 预测 测 样本 主 成 分 ， 并 作 主 成 分 分 析 


> pre<-predict (conomy .pr) 








> conomy$z1<-pre[,1] ; conomy$z2<-pre[,2] 
> lm.sol<-lm(y“z1+z2, data=conomy) 

> summary (lm.so1) 

Call: 


lm(formula = y ~ zi + 22, data = conomy) 


Residuals: 
Min 1Q Median 3Q Max 
-0.89838 -0.26050 0.08435 0.35677 0.66863 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) 21.8909 0.1658 132.006 1.21e-14 *** 
zl 2.9892 0.1173 25.486 6.02e-09 *** 


Z2 -0.8288 0.1660 -4.993 0.00106 ** 
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Signif. codes: 0 ’***’ O.001 ’**’? O0.01 ’*’” 0.05 ”.”0.1 ，” ”1 


Residual standard error: 0.55 on 8 degrees of freedom 
Multiple R-Squared: 0.9883, Adjusted R-squared: 0.9853 
F-statistic: 337.2 on 2 and 8 DF, p-value: 1.888e-08 


回归 系数 和 回归 方程 均 通 过 检验 ， 而 且 效 果 显 著 ， 即 得 到 回归 方程 
Y = 21.8909 + 2.98922* — 0.828823. 
上 述 方程 得 到 是 响应 变量 与 主 成 分 的 关系 , 但 应 用 起 来 并 不 方便 , 还 是 希望 
得 到 响应 变量 与 原 变量 之 间 的 关系 ， 由 于 ， 
Y = 记 二 记 人 I 十 谎 和 32， 


II 二 QilXT 十 Qi2X2 于 ai3X3, 
al(X1 一 二) ， aiz(X2 一 和 2) ai3(X3— 23) 




















二 一 一 十 一 一 一 十 一 ) 1 一 1,2, 
VS11 V 522 V 333 
所 以 ， 
Q1171 ，Ql1272 Q137T3 Q2171 ，Q2272  Q23T3 
二 十 一 一 十 一 大 + 一 一 + 一 一 
和 所 ( V 3511 V 522 V 533 ) 让 ( V 511 V 522 V 333 ) 
f (Ciaall 十 应 op) ye 二 (BYQa12 十 应 ozz) x a (Bia13 十 F023) X， 
VS11 V 522 V 333 
= Pot+ PX1+ boX2 + PaXs, (9.15) 
其 中 











ox px {QUT ，Q1272 ，Q1373 、 orf QA21T1 ，Q2272  Q23T3 
bo = fi ++ ) (010 
p= Ct ie), i112,3 (9.17) 
按照 式 (9.16)-(9.17) 编写 计算 系数 的 函数 
#### 作 变 换 ， 得 到 原 坐 标 下 的 关系 表达 式 


> beta<-coef (lm.so01); A<-loadings (conomy .pr) 





> x.bar<-conomy.pr$center; x.sd<-conomy.pr$scale 
> coef<-(beta[2]*A[,1]+ beta[3]*A[,2])/x.sd 


> beta0 <- beta[1]- sum(x.bar * coef) 
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在 程序 中 ， coef 也 数 是 提取 回归 系数 ， loadings 是 提取 主 成 分 对 于 的 特征 向 
量 ，conomy .pr$center 是 数据 的 中 心 , 也 就 是 数据 X 的 均值 ，conomy .pr$scale 
是 数据 的 标准 差 ， 即 sz 的 开 方 . 因此 得 到 相应 的 系数 


> c(beta0, coef) 


(Intercept) x1 X2 X3 
-9.13010782 0.07277981 0.60922012 0.10625939 
即 回归 方程 为 


Y = —9.13010782 十 0.07277981X1 十 0.60922012Xs 十 0.10625939X3a3.， (9.18) 


此 时 ， 对 应 Xi, X2, Xs 的 系数 均 为 正 数 ， 比 原 回 归 方程 (9.14) 更 合理 . 


9.2 ”因子 分 析 


因子 分 析 (factor analysis) 是 主 成 分 分 析 的 推广 和 发 展 ， 它 也 是 多 元 统计 分 
析 中 降 维 的 一 种 方法 , 是 一 种 用 来 分 析 隐 藏 在 表面 现象 背后 的 因子 作用 的 一 类 统 
计 模 型 . 因子 分 析 是 研究 相关 阵 或 协 方差 阵 的 内 部 依赖 关系 ,， 它 将 多 个 变量 综合 
为 少数 几 个 因子 ， 以 再 现 原始 变量 与 因子 之 间 的 相关 关系 . 

因子 分 析 起 源 于 20 世纪 初 ， 下 . Pearson 和 C. Spearman 等 学 者 为 定义 和 
测定 智力 所 作 的 统计 分 析 . 目前 因子 分 析 在 心理 学 、 社 会 学 、 经 济 学 等 学 科 取得 
了 成 功 的 应 用 . 





9.2.1 引 例 


下 面 用 几 个 例子 说 明 如 何 用 因子 分 析 来 构造 因子 模型 . 
例 9.4 为 了 解 学 生 的 学 习 能 力 ， 观 测 了 nn 个 学 生 的 p 个 科目 的 成 绩 (分 数 ) 用 
XXX 表示 也 个 科目 (例如 人 代数、 几何、 语文 、 英 语 、 政 治 ，………), XGi) = 
(i vi2,… Zp)?， (i 一 1,2,.…,n) 表示 第 i 个 学 生 的 p 科目 的 成 绩 ， 现 要 分 析 
主要 由 哪些 因素 决定 学 生 的 学 习 能 

现 对 这 些 资料 进行 归纳 分 析 ， 可 以 看 出 各 个 科目 (变量 ) 由 两 部 分 组 成 





Xi; = aif + Ei i= 1,2,..…,p, (9.19) 
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其 中 是 对 所 有 Xi(i = 1,2,.…,p) 都 起 作用 的 公共 因子 (common factor), 它 表 
示 智 能 高 低 的 因子 ， 系 数 a; 称 为 因子 载荷 (loading); s; 是 科目 (变量 )X; 特有 的 
特殊 因子 (specific factor). 这 就 是 一 个 最 简单 的 因子 模型 . 

进一步 ， 可 把 简单 因子 模型 推广 到 多 个 因子 的 情况 ， 即 科目 X 所 有 的 因子 
有 m 个 ， 如 数学 推导 因子 、 记 忆 因 子 、 计 算 因 子 等 ， 分 别 记 为 及 ,……, fm, 即 











X; 一 ail 万 | ai2f2 上 Qaim fm 十 Ei, [= 1, 2 “5 (9.20) 





用 这 m 个 不 可 观测 的 互 不 相关 的 公共 因子 及, f2,…, fn( 也 称 为 潜 因 子 ) 和 一 个 
特殊 因子 s; 来 描述 原始 可 测 的 相关 变量 (科目 )X1, 2,…, XX,, 并 解释 分 析 学 生 
的 学 习 能 力 . 它们 的 系数 ait Qi2,…, aip 称 为 因子 载 从 ,表示 第 i 个 科目 在 m 个 
方面 的 表现 . 这 就 是 一 个 因子 模型 . 

例 9.5 Linden 对 二 次 大 战 以 来 奥林匹克 十 项 全 能 的 得 分 作 研究 ， 他 收集 了 160 
组 数据 ， 以 Xi X2 ,Xi0 分 别 表 示 十 项 全 能 的 标准 得 分 ， 这 里 十 项 全 能 依次 
是 : 100 米 短跑 、 跳 远 、 跳 高 、 400 米 跑 、 110 米 跨 栏 、 铁 饼 、 撑 杆 跳 高 、 标 
枪 、 1500 米 跑 ， 现 要 分 析 主 要 由 哪些 因素 决定 十 项 全 能 的 成 绩 ， 以 此 可 用 来 指 
导 运 动员 的 选拔 . 

对 于 这 十 项 得 分 ， 基本 上 可 以 归结 于 短跑 速度 、 爆 发 性 臂力 、 爆 发 性 腿 力 和 
耐力 四 个 方面 , 每 一 方面 都 称 为 一 个 因子 ， 因此 该 类 问题 可 用 因子 分 析 模 型 去 处 
理 . 

例 9.6 考察 人 体 的 五 项 生理 指标 : 收缩 压 (XI) 、 舒张 压 (Xo) 、 心 跳 间隔 (Xs) 、 
呼吸 间隔 (X4) 和 天 下 温度 (X5). 从 这 些 指标 考察 人 体 的 健康 状况 ， 

从 生理 学 的 知识 可 知 ， 这 五 项 指标 是 受 植物 神经 支配 的 ,植物 神经 又 分 为 交 
感 神经 和 副交感 神经 ， 因 此 这 五 项 指标 至 少 受 到 两 个 公共 因子 的 影响 ,也 可 用 因 
子 分 析 的 模型 去 处 理 . 

通过 以 上 几 个 例子 可 以 看 到 ， 因 子 分 析 的 主要 应 用 有 两 个 方面 , 一 是 寻求 基 
本 结构 ， 简 化 观测 系统 ， 将 具有 错综复杂 关系 的 对 象 (变量 或 样本 ) 综合 为 少数 
几 个 因子 (不 可 观测 的 随机 变量 ), 以 再 现 因子 与 原始 变量 之 间 的 内 在 联系 ;二 是 
用 于 分 类 ， 对 于 p 个 变量 或 n 个 样本 进行 分 类 . 

因子 分 析 根 据 研究 对 象 的 不 同 可 以 分 为 及 型 和 Q 型 因子 分 析 . R 型 因子 
分 析 研 究 变量 (指标 ) 之 间 的 相关 关系 ， 通 过 对 变量 的 相关 阵 或 协 方差 阵 内 部 结 
构 的 研究 ， 找 出 控制 所 有 变量 的 几 个 公共 因子 (或 称 主因 子 、 潜 在 因子 ), 用 以 对 
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变量 或 样本 进行 分 类 Q 型 因子 分 析 研 究 样 本 之 间 的 相关 关系 ， 通 过 对 样本 的 
相似 和 矩阵 内 部 结构 的 研究 找 出 控制 样本 的 几 个 主要 因素 (或 称 为 主因 子 ). 这 两 种 
因子 分 析 的 处 理 方法 是 一 样 的 ， 只 是 出 发 点 不 同 。 R 型 从 变量 的 相关 阵 出 发 ， 
Q 型 从 样本 的 相似 矩阵 出 发 对 一 批 观 测 数据 ， 可 以 根据 实际 问题 的 需要 来 决定 
采用 哪 一 种 类 型 的 因子 分 析 . 
9.2.2 ”因子 模型 

1. 数学 模型 

设 和 = (Xi,X2,…,Xp)” 是 可 观测 的 随机 向 量 ， 且 

E(X) 二 从 二 (UL No2， 2 i Var(X) 三 = (aij)pxp- 


因子 分 析 的 一 般 模 型 为 




















Xi1—H1=anfit+aw2fzt + Amfmt el 
Xs 一 Ha 一 021 万 十 a22 户 十 十 am 万 十 2 

. (9.21) 
X, 一 Hp 二 apifi 下 ap2f2 2 Gypmfm TEp 

















其 中 刻 , f2,…, fm (m < p) 为 公共 因子 ， 61, 62,…, Ep 为 特殊 因子 ， 它 们 都 是 
不 可 观测 的 随机 变量 . 公共 因子 万, f2,……, fm 出 现在 每 一 个 原始 变量 Xi(i = 
1, 2,.……,p) 的 表达 式 中 ， 可 理解 为 原始 变量 共同 具有 的 公共 因素 ， 每 个 公共 因子 
万 U = 1,2,…,m) 一 般 至 少 对 两 个 原始 变量 有 作用 ， 否 则 它 将 归 入 特殊 因子 . 
每 个 特殊 因子 &i(i = 1 2 ……D) 仅仅 出 现在 与 之 相应 的 第 i 个 原始 变量 X; 的 表 
达 式 中 ， 它 只 对 这 个 原始 变量 有 作用 . 可 将 式 (9.21) 写成 矩阵 表示 形式 











X=h+AFt+ts, (9.22) 

其 中 Fe (i， fo, Se fn) 为 公共 因子 向 量 ， 3 (£1, 2， 人 村 .2p) 为 特殊 因子 向 
量 ， 4 = (4ij)pxm 为 因子 载荷 矩阵 ， 通 党 假设 

BF) 0 Var) Sb (9.23) 

El(e 0 Var(e) = .D = diae(0 0 6) (9.24) 

Cov(F,e) = 0. (9.25) 


NE 
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由 上 述 假定 可 以 看 出 , 公共 因子 彼此 不 相关 且 具 有 单位 方 阵 ,特殊 因子 也 彼此 不 
相关 且 和 公共 因子 也 不 相关 . 
2. 因子 模型 的 性 质 
(1) 的 分 解 
= 447 十 也 . (9.26) 
(2) 模型 不 受 单位 的 影响 . 若 X* = CX, 则 有 
Ey ee 
其 中 yw = Cn, A*= 二 CA,rF*= 了 『F,e*=0Oe. 
(3) 因子 载荷 不 是 惟一 的 . 设 了 是 一 m 阶 正 交 和 矩阵 , 令 4* = AT, Fr =T7R,， 
则 模型 (9.22) 可 表示 为 
X=h+AF +e. (9.27) 
因子 载荷 矩阵 不 惟一 对 实际 应 用 是 有 好 处 的 , 通常 利用 这 一 点 , 通过 因子 旋 
转 ， 使 得 新 因子 有 更 好 的 实际 意义 . 
3. 因子 载荷 矩阵 的 统计 意义 
(1) 
Cov(X,F)=A 或 Cov(X;,f;) = aij. (9.28) 
即 因子 载荷 a;; 是 第 i 个 变量 与 第 ; 个 公共 因子 的 相关 系数 . 由 于 X; 是 fi, fo， 
人 J 的 线性 组 合 ， 所 以 系数 Qil, Qi2) Qim 是 用 来 度量 Ai 可 由 fi 户 ， 四 Fi 
伐 性 组 合 表示 的 程度 . 
四 令 避 二 ba 则 有 





oi =hi+ol, i=1,2,...,%. (9.29) 


克 反映 了 公共 因子 对 原始 变量 X; 的 影响 ， 可 以 看 成 是 公共 因子 对 X; 的 方差 
献 ， 称 为 变量 X; 的 共同 度 (communality) 或 共性 方差 (common variance); 而 
是 特殊 因子 s 对 Xi; 的 方差 贡献 ， 称 为 变量 X; 特殊 方差 (specifie variance). 
X 为 各 分 量 已 标准 化 的 随机 变量 (ci = 1), 此 时 有 


i Ee 由 


hi+or=1, i=1,2,...,p. (9.30) 
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() 令 多 = 守则 有 


Da > 十 Do 0; (9.31) 
四 反映 了 公共 因子 fj 对 入 ,XX2,… ,Xp 的 影响 是 衡量 公共 因子 f; 重要 性 的 一 
个 尺度 ， 可 视 为 公共 因子 f; 对 Xi1, Xo2,…,Xy 的 总 方差 贡献 . 
9.2.3 ”参数 估计 
设 人 GAO， 信人 m) 是 一 组 p 维 样本 ， 其 中 信人 = (Lia, Zi2 ,Tip) 则 
KW 和 可 分 别 估计 为 
ce 
SA 5 Xo -下 (Xo -HR 
i=1 
为 了 建立 因子 模型 ， 首 先 要 估计 因子 载 集 算 阵 4 = (aij)pxm 和 特殊 方差 矩阵 


D = diag(o1,02,…,05). 常用 的 参数 估计 方法 有 如 下 三 种 : 主 成 分 法 、 主 因子 
法 和 极 大 似 然 法 . 


1. 主 成 分 法 
设 样 本 的 协 方 差 阵 5 的 特征 值 为 和 > 和 2 之 '… > Xp > 0, 相应 单位 正 交 特 
征 向 量 为 ,12,…, lb, 则 5 有 谱 分 解 式 


了 
5 三 >》 
i=1 


当 最 后 p 一 m 个 特征 值 较 小 时 ， 5S 可 近似 地 分 解 成 


























S = NU + Mn Na t+ Mplpl 
~ NNT + Nn 十 万 
= 447 十 万， (9.32) 
其 中 
Ne (9.33) 
.和 持 diag(o1, 02,.**, 029), (9.34) 


v? = 0 = = 2 (9.35) 
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式 (9.33)-(9.35) 给 出 的 4 和 D 就 是 因子 模型 的 一 个 解 . 载荷 窍 阵 4 中 的 第 
7 列 和 X 的 第 7 个 计 成 分 的 系数 相差 一 个 倍数 VXj0 = 1,2,…,m)， 故 由 式 
(9.33)-(9.35) 给 出 的 这 个 解 称 为 因子 模型 的 主 成 分 解 . 
当 相 关 变 量 所 取 单 位 不 同时 , 常常 先 对 变量 标准 化 ,标准 化 变量 的 样本 协 方 
差 阵 就 是 原始 变量 的 样本 相关 阵 瓦 , 再 用 忆 代 蒋 9, 与 上 类 似 , 即 可 得 主 成 分 解 . 
下 面 写 出 主 成 分 法 的 R 程序 (程序 名 : factor.analy1.R) 


factor.analy1i<-function(S, m){ 
p<-nrow(S); diag_S<-diag(S); sum_Trank<-sum(diag_S) 
rowname<-paste("X", 1:p, sep="") 
colname<-paste("Factor", 1:m, sep="") 
A<-matrix(0, nrow=p, ncol=m, 
dimnames=list (rowname, colname)) 
eig<-eigen(Ss) 
for (i in 1:m) 
A[,i]j<-sgqrt(eig$values [i])*eig$vectors[,i] 
h<-diag (A%*%t (A)) 
rowname<-c("SS loadings",'"Proportion Var",'"Cumulative Var'") 
B<-matrix(0, nrow=3, ncol=m, 
dimnames=list (rowname, colname)) 
for (i in 1:m){ 
B[1,i]<-sum(A[,i] “2) 
B[2,i]<-B[1,i]/sum_rank 
B[3,i]<-sum(B[1,1:i])/sum_rank 
} 
method<-c("Principal Component Method") 
list(method=method, loadings=A, 
var=cbind(common=h, spcific=diag_S-h), B=B) 
} 
函数 输入 值 8 是 样本 方差 阵 或 相关 甜 阵 ， nm 是 主因 子 的 个 数 ， 函 数 的 输出 值 是 
列表 形式 ， 其 内 容 有 估计 参数 的 方法 ( 主 成 分 法 ), 因子 载荷 (lo0adings), 共性 方 
差 和 特殊 方差 ， 以 及 因子 对 变量 X 的 贡献 、 贡 献 率 和 累积 贡献 率 . 
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例 9.7 对 和 5 个 国家 和 地 区 的 男子 径 赛 记录 作 统 计 ,， 每 位 运动 员 记 录 8 项 指标 : 
100 米 跑 (Xi1) 、200 米 跑 (X22) 、400 米 跑 (Xs) 、800 米 跑 (X4) 、1500 米 跑 


(Xs) 、 5000 米 跑 (Xe) 、 


Xl 
1.000 
0.923 
0.841 
0.756 
0.700 
0.619 
0.633 
0.520 





六 2 


1.000 
0.851 
0.807 
0.775 
0.695 
0.697 
0.596 


10000 米 跑 (X7) 、 马 拉 松 (Xg). 8 项 指标 的 相关 拢 
阵 及 如 表 9.4 所 示 . 取 m 二 2, 用 主 成 分 法 估计 因子 载荷 和 共性 方差 午 指 标 . 


表 9.4: 16 项 身体 指标 数据 的 相关 矩阵 


所 3 


1.000 
0.870 
0.835 
0.779 
0.787 
0.705 


Xa 


1.000 
0.918 
0.864 
0.869 
0.806 


Xs X6 所 7 Xs 


1.000 

0.928 1.000 

0.935 0.975 1.000 

0.866 0.932 0.943 1.000 


解 :， 输入 相关 矩阵， 用 编写 的 函数 factor.analy1() 主 成 分 法 估计 载荷 和 


相关 指标 (程序 名 : 


x<-c(1.000, 
i923 
.841,， 
.756 ， 
.700 ， 
.619 ， 
.633 ， 
0.520， 


O 口 口 口 口 oO 


names<-c("X1", 


R<-matrix(0, nrow=8, 


exam0907 .BR) 
1.000 ， 
0.851，1.000， 
0.807，0.870， 
0.775,; 02835， 
0.695，0.779， 
0.697，0.787， 
0.596，0.705， 
"X2"，"X3"， 


for (i in 1:8){ 


for (j in 1:i){ 


1.000， 
0.918， 
0.864， 
0.869， 
0.806, 

"X4", 


1.000， 

0.928，1.000， 
0.935，0.975，1.000， 
0.866，0.932，0.943，1.000) 
WR RO MY 


ncol=8, dimnames=list (names, names)) 


R[i,j]<-x[(i-1)*i/2+j]; R[Lj,i]<-R[i,j] 
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} 


source("factor.analy1.R") 


fa<-factor.analyl(R，m=2); fa 


得 到 
$method 
[1] "Principal Component Method" 
$loadings 
Factor1 Factor2 


X1 -0.8171700 -0.53109531 
X2 -0.8672869 -0.43271347 
X3 -0.9151671 -0.23251311 
X4 -0.9487413 -0.01184826 


X5 -0.9593762 0.13147503 
X6 -0.9376630 0.29267677 
X7 -0.9439737 0.28707618 
X8 -0.8798085 0.41117192 
$var 

common spcific 
X1 0.9498290 0.05017099 
X2 0.9394274 0.06057257 
X3 0.8915931 0.10840689 
X4 0.9002505 0.09974954 
X5 0.9376883 0.06231171 
X6 0.9648716 0.03512837 
X7 0.9734990 0.02650100 
X8 0.9431254 0.05687460 
$B 


Factorl1 Factor2 
SS loadings 6.6223580 0.8779264 
Proportion Var 0.8277947 0.1097408 
Cumulative Var 0.8277947 0.9375355 
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若 记 
E=S-(AA'+D)= 


(eij)pxp; 


可 以 证 明 ， 


了 
2 2 < N21+ 十 A (9.36) 


当 m 选择 适当 ， 则 近似 公式 (9.32) 的 误差 平方 和 Q(m) 很 小 . 
计算 出 例 9.7 的 Q(m) 值 . 


> E<- R-fa$loadings %*% t(fa$loadings)-diag(fa$var[,2]) 
> sum(E“2) 
[1] 0.01740023 


公 因 子 个 数 m 的 确定 方法 一 般 有 两 种 ， 一 是 根据 实际 问题 的 意义 或 专业 理 
论 知识 来 确定 ;二 是 用 确定 主 成 分 个 数 的 原则 ， 选 m 为 满足 : 


m p 
3 3 >P 
和 i 


的 最 小 个 数 (比如 取 PR 0.70 且 P<1). 
2. 主因 子 法 
主因 子 法 是 对 主 成 分 法 的 修正 , 这 里 假定 变量 已 经 标准 化 . 设 R= 447 十 万 ， 


vt 


ll 








则 
R-D= 447 = R’, 





称 为 约 相关 阵 (reduced correlation matrix). 易 见 ， R* 中 对 角 线 元 素 是 好, 而 不 
是 1, 非 对 角 线 元 素 与 R 中 是 完全 一 样 的 ， 并 且 R* 也 一 定 是 非 负 和 窍 阵 . 
设 5; 是 特殊 方差 of 的 一 个 合适 的 初始 估计 ， 则 约 相 关 和 矩阵 可 估计 为 





72 
hi T12 2 TIp 
72 
入 To1 h> we 72p 
* 
R=|. ed 
72 
Tp1 Tp2 。。。 Po 


其 中 邮 =1- 人 ?是 尼 的 初始 估计 . 
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设 六 的 前 m 个 特征 值 依次 为 半 > 各 > … > X > 0, 相应 的 单位 正 交 特 
征 向 量 为 上 ,从 ,……, 汉 , 则 有 近似 分 解 式 : 


R* = AAT, (9.37) 
其 中 
a4-( M1 要 (9.38) 
令 
j=1 


则 4 和 DD = diag(F?, 人 3,…, 人 2) 为 因子 模型 的 一 个 解 , 这 个 解 就 称 为 主因 子 解 . 
如 果 希 望 求 得 拟 合 程度 更 好 的 解 ， 则 可 以 采用 迭代 的 方法 ， 即 式 (9.39) 中 的 
5? 再 作为 特殊 方差 的 初始 估计 ， 重 复 上 述 步骤， 直至 解 稳定 为 止 . 
“与 主 成 分 法 类 似 ， 主 因子 法 中 的 R 也 可 以 换 成 样本 方差 阵 5, 只 不 过 此 时 
h? = si — O07. 
按照 主因 子 法 的 思想 编写 相应 的 及 程序 (程序 名 ;factor .analy2.R) 


factor.analy2<-function(R, m, d){ 





p<-nrow(R); diag_R<-diag(R); sum_rank<-sum(diag_R) 
rowname<-paste("X", 1:p, sep="") 
colname<-paste("Factor", 1:m, sep="") 
A<-matrix(0, nrow=p, ncol=m, 
dimnames=list (rowname, colname)) 

kmax=20; k<-1; h <- diag_R-d 
repeat{ 

diag(R)<- h; hi<-h; eig<-eigen(R) 

for (i in 1:m) 

A[,i]j<-sgqrt(eig$values [i])*eig$vectors[,i] 

h<-diag(A %*% 七 (A) ) 

if ((sqrt(sum((h-h1)“°2))<1e-4) |k==kmax) break 

k<—k+1 
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rowname<-c("SS loadings'" ,"Proportion Var",'"Cumulative Var'") 
B<-matrix(0, nrow=3, ncol=m, 
dimnames=list (rowname, colname)) 
for (i in 1:m)t 

B[1,i]<-sum(A[,i] “2) 

B[2,i]<-B[1,i]/sum_rank 

B[3,i]<-sum(B[1,1:i])/sum_rank 

} 
method<-c("Principal Factor Method'") 
list(method=method, loadings=A, 
var=cbind(common=h, spcific=diag_R-h) ,B=B,iterative=k) 
} 
函数 输入 值 R 是 样本 相关 矩阵 或 样本 方差 矩阵 ，m 是 主因 子 的 个 数 ，d 是 特殊 方 
差 的 估计 值 . 函数 的 输出 值 是 列表 形式 ， 其 内 容 有 估计 参数 的 方法 (主因 子 法 )， 
因子 载荷 (Loadings), 共性 方差 和 特殊 方差 ， 因 子 了 对 变量 X 的 贡献 、 贡 献 率 
和 累积 贡献 率 ， 以 及 求解 的 迭代 次 数 . 
例 9.8 取 m= 2, 特殊 方差 的 估计 值 67 为 
0.123, 0.112, 0.155, 0.116, 0.073, 0.045, 0.033， 0.095， 
用 主因 子 法 估计 例 9.7 因子 载荷 和 共性 方差 等 指标 . 
解 : 
> d<-c(0.123，0.112，0.155，0.116，0.073，0.045，0.033，0.095) 
> Source("factor .analy2.R") 
> fa<-factor.analy2(R, m=2, d); fa 
$method 
[1] "Principal Factor Method" 
$loadings 
Factorl Factor2 

X1 -0.8123397 -0.5138770 
X2 -0.8610033 -0.4156335 
X3 -0.9005036 -0.2105394 
X4 -0.9370464 -0.0178458 
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X5 -0.9545376 0.1186825 
X6 -0.9384689 0.2861327 
X7 -0.9470951 0.2858694 
X8 -0.8728340 0.3770009 


$var 

common spcific 
X1 0.9239653 0.07603473 
X2 0.9140779 0.08592213 
X3 0.8552337 0.14476635 
X4 0.8783744 0.12162560 
X5 0.9252275 0.07477251 
X6 0.9625958 0.03740416 
X7 0.9787105 0.02128951 
X8 0.9039690 0.09603103 
$B 


Factorl1 Factor2 
SS loadings 6.54088 0.8012746 
Proportion Var 0.81761 0.1001593 
Cumulative Var 0.81761 0.9177692 
$iterative 
[1] 16 
用 了 16 次 迭代 得 到 稳定 解 ， 再 计算 Q(m)， 
> E<- R-fa$loadings %*% t(fa$loadings)-diag(fa$var[,2]) 
> sum(E“2) 
[1] 0.005421902 
要 优 于 主 成 分 法 . 
特殊 方差 o; 的 常用 初始 估计 方法 有 以 下 几 种 : 
(1) 取 =1/r", 其 中 7 是 RR 的 第 i 个 对 角 线 元 素 . 
四 取 民 =maxlral 此 时 ， 人 党 =1 一 及 
(3 me = .2=0. 


3. 极 大 似 然 法 
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设 公共 因子 已 ~ Nm(0, 7), 特殊 因子 = ~ N,(0, 7), 且 相互 独立 ， 那 么 可 以 得 
到 因子 载荷 矩阵 和 特殊 方差 的 极 大 似 然 估 计 . 设 p 维 观测 向 量 Xa), Xa，…,Xm 
为 来 自 总 体 No(1, 2) 的 随机 样本 ， 则 样本 的 似 然 函数 为 1, 2 的 函数 L(1, 允 ). 
设 了 = 447 十 DD, 取 4 一 六, 则 似 然 函 数 二 又, 447 + DD) 的 对 数 似 然 函数 
为 4A,DD 的 函数 ， 记 为 p(4, D). 设 (4,D) 的 极 大 似 然 估计 为 (4, D), 即 有 
(4 D) = maxw(A, D), 


则 4,D 满足 以 下 方程 组 


5D-14 = A (7 是 你 广 14) ， (9.40) 
Db = diag (5 4 人 7) (9.41) 
其 中 
> 1 a 
2 2 XG 一 = 


为 了 保证 方程 组 (9.40) 得 到 惟一 解 ， 可 附加 计算 上 方便 的 惟一 性 条 件 ; 
47D4= 对 角 和 矩阵 . (9.42) 


Joreskog 和 Lawley 等 人 (1967) 提出 了 一 种 较为 实用 的 迭代 法 , 使 极 大 似 然 
法 逐步 被 人 们 采用 . 其 基本 思想 是 ， 先 取 一 个 初始 矩阵 


. /和 人 2 一 2 和 2 
Do = diag(cl， 01) 0p)， 


现 计算 4o, 计算 4o 的 办 法 是 先 求 D3 “Di 的 特征 值 01 > > bo, 及 相应 
的 特征 向 量 11， 12， 2 ly. 令 9 = diag(0O1， 02， ey Om), L= (1 12， en lm) 且 令 


Ao = DI2L(O— I) 2 (9.43) 


再 由 式 (9.41) 得 到 D1, 然后 再 按 上 述 方法 得 到 A1, 直到 满足 方程 (9.40) 为 止 . 
下 面 是 由 上 述 思想 编写 的 R 程序 (程序 名 : factor.analy3.BR) 


factor.analy3<-function(S，m，d){ 
p<-nrow(S); diag_S<-diag(S); sum_Trank<-sum(diag_S) 


rowname<-paste("X", 1:p, sep="") 
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colname<-paste("Factor", 1:m, sep="") 
A<-matrix(0, nrow=p, ncol=m, 
dimnames=list (rowname, colname)) 
kmax=20; k<-1 
repeat{ 
di<-d; d2<-1/sqrt(d); eig<-eigen(S * (d2 %o% d2)) 
for (i in 1:m) 
A[,i]j<-sgqrt(eig$values[i]-1)*eig$vectors[,i] 
A<-diag(sqrt(d)) %*% A 
d<-diag(S-A%*%t (A)) 
if ((sqrt(sum((d-d1)“2))<1e-4) |k==kmax) break 
k<-k+1 
} 
rowname<-c("SS loadings",'"Proportion Var",'"Cumulative Var'") 
B<-matrix(0, nrow=3, ncol=m, 
dimnames=list (rowname, colname)) 
for (i in 1:m)t 
B[1,i]<-sum(A[,i] “2) 
B[2,i]<-B[1,i]/sum_rank 
B[3,i]<-sum(B[1,1:i])/sum_rank 
} 
method<-c("Maximum Likelihood Method") 
list(method=method, loadings=A, 
var=cbind(common=diag_S-d, spcific=d) ,B=B,iterative=k) 
} 
例 9.9 取 m = 2, 特殊 方差 的 估计 值 97 为 
0.123， 0.112, 0.155， 0.116， 0.073， 0.045， 0.033， 0.095， 
用 极 大 似 然 法 估计 例 9.7 因子 载荷 和 共性 方差 等 指标 . 
解 : 
> d<-c(0.123, 0.112, 0.155, 0.116, 0.073, 0.045, 0.033, 0.095) 


> Source("factor .analy3.R1") 
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> fa<-factor.analy3(R，m=2，d); fa 
$method 
[1] "Maximum Likelihood Method" 
$loadings 

Factorl1 Factor2 
[1,] -0.7310172 -0.62009641 
[2,] -0.7919994 -0.54575786 
[3,] -0.8549232 -0.34252454 
[4,] -0.9158820 -0.16063750 
[5,] -0.9580091 -0.02492734 
[6,] -0.9725436 0.14485411 
[7,] -0.9806291 0.14276290 
[8,] -0.9226101 0.24953974 


$var 

common spcific 
X1 0.9189057 0.08109428 
X2 0.9251146 0.07488539 
X3 0.8482167 0.15178334 
X4 0.8646442 0.13535579 
X5 0.9184028 0.08159724 
X6 0.9668237 0.03317631 
X7 0.9820147 0.01798529 
X8 0.9134795 0.08652046 
$B 


Factorl1 Factor2 
SS loadings 6.407848 0.9297541 
Proportion Var 0.800981 0.1162193 
Cumulative Var 0.800981 0.9172002 
$iterative 


[1] 14 


用 了 14 次 达 代 得 到 稳定 解 . 再 计算 Q(m)， 
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> E<- R-fa$loadings %*% t(fa$loadings)-diag(fa$var[,2]) 
> sum(E“2) 
[1] 0.006710651 


将 上 述 三 种 佑 计 方 法 结合 在 一 起 ， 并 考虑 在 主 成 分 估计 中 介绍 的 因子 个 数 
m 的 选取 方法 ， 和 在 主因 子 法 中 介绍 特殊 方差 97 初始 估计 方法 . 编写 相应 的 及 
程序 (程序 名 :factor.analy.B) 


factor.analy<-function(S, m=0, 
d=1/diag(solve(S)), method="likelihood"){ 
if (m==0){ 
p<-nrow(X); eig<-eigen(S) 
sum_eig<-sum(diag(S)) 
for (i in 1:p)t 
if (sum(eig$values[1:i])/sum_eig>0.70){ 


m<-i; break 


中 

source("factor.analy1.R"); Source("factor.analy2.R") 

source("factor.analy3.R") 

switch (method, 
princomp=factor.analy1(S, m), 
factor=factor.analy2(S, m, d), 
likelihood=factor.analy3(S, m, d) 


} 


函数 输入 样本 方差 矩阵 5 或 样本 相关 和 矩阵 R. 因子 个 数 m( 缺 省 值 由 贡献 率 
计算 出 mm 值 ) 特殊 方差 的 初始 估计 d( 缺 省 值 为 如 = 1/r59， 计 算 因子 载荷 的 
方法 ， method=princomp 采用 主 成 分 方法 ， method=factor 采用 主因 子 方法 ， 
method=1ikelihood( 缺 省 值 ) 采用 极 大 似 然 方 法 . 函数 输出 就 是 采用 前 面 介绍 三 
种 方法 的 输出 格式 . 
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9.2.4 ”方差 最 大 的 正 交 旋转 


因子 分 析 的 目的 不 仅 是 求 出 公共 因子 , 更 主要 的 是 应 该 知道 每 个 公 因 子 的 实 
际 意义 . 但 由 于 前 面 介 绍 的 估计 方法 所 求 出 的 公 因子 解 ， 其 初始 因子 载荷 甜 阵 并 
不 满足 “简单 结构 准则 ”, 即 各 个 公 因子 的 典型 代表 变量 很 不 突出 ,因而 容易 使 公 
因子 的 实际 意义 含糊 不 清 ， 不 利用 对 因子 的 解释 .为 此 ， 必 须 对 因子 载荷 矩阵 施 
行 旋转 变换 ， 使 得 因子 载 答 的 每 一 列 各 元 素 的 平方 按 列 向 0 或 1 两 极 转 化 ， 达 
到 其 结构 简化 的 目的 . 


1. 理论 依据 


设 因 子 模型 : X = AF 十 e, 其 中 卫 为 公 因子 向 量 ， 对 焉 施行 正 交 变换 ， 
今 2 = 二 TTF(OT 为 任 一 mm 阶 正 交 和 矩阵 ), 则 


X= ArZ+s, (9.44) 
且 
Var(2) = Var(T’F)=T Var(PMT = I, (9.45) 
Cov(Z,e) = Cov(T’F,e)=T Cov(F,e)=)0, (9.46) 
Var(X) = Var(ATZ)+ Var(e)= ATVar(Z)T "A 十 万 
= AA +D. (9.47) 





式 (9.44)-(9.47) 说 明 ， 知 了 是 因子 模型 的 公 因 子 向 量 ， 则 对 任 一 正 交 甜 阵 工 ， 
2Z = 玉环 也 是 公 因 子 向 量 . 相应 的 AT 是 公 因子 2 的 因子 载荷 矩阵 . 

利用 此 性 质 ， 在 因子 分 析 的 实际 计算 中 ， 当 求 得 初始 因子 载荷 窍 阵 4 后 ， 
反复 右 乘 正 交 和 矩阵 了, 使 得 4T 具有 更 明显 的 实际 意义 .这 种 变换 载荷 甜 阵 的 方 
法 ， 称 为 因子 轴 的 正 交 旋转 . 


2. 因子 载荷 方差 
设 因子 模型 X = A 二 6, 4 = (Qij)pxm 为 公 因子 向 量 了 的 因子 载荷 矩阵 
j= 


如 果 4 的 每 一 列 ( 即 因子 载荷 问 量 ) 数值 越 分 散 ， 相 应 的 因子 载荷 问 量 的 方 
差 越 大 . 为 消除 由 于 oz 符号 不 同 的 影响 及 各 变量 对 公共 因子 依赖 程度 不 同 的 影 
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Q2 
斧 = 形 i= 1,2,..,p, j= 1,2,.……,m, 


将 第 7 列 的 p 个 数据 di;, d2 27) “ ,do 的 方差 定义 为 
_1 1 人 ?a2 E 


其 中 忆 = a j = 1,2,…,m. 则 因子 载荷 扰 阵 4 的 方差 为 


a 


者 V; 值 越 大 ，4 的 第 j 个 因子 载 丛 向 量 数值 越 分 散 ， 如 采 载 丛 值 或 是 趋 于 1 或 
是 趋 于 0, 这 时 相应 的 公共 因子 五 具有 简单 化 结构 ， 因 而 我 们 希望 因子 载 答 汗 
阵 4 的 方差 尽 可 能 大 . 

3. 方差 最 大 的 正 交 旋转 

通 浓 采用 正 交 旋 转 得 到 方差 最 大 的 载 从 矩阵 ， 设 m = 2, 因子 载荷 矩阵 为 











Q1l Q12 
Q21 (022 
A= | . .|, 
Qpl QWp2 
coSO% 一 Sin 
取 正 交 窍 阵 工 = | . 则 
sinp cosw 
Qll cog 十 alzsinwPD 一 allSin wp 十 Ql2 CoS bl bi2 
Q21coSP 十 Qo22 Sinw 一 021 Sin J 十 Q22 COS bol 0b22 
Qpl coS% 十 ap2Sinow 一 0plSin 十 Qp2 cosy bp! bp2 


是 2 = 了 的 因子 载荷 逢 了 泗 ， 这 相当 于 将 ,fo 确定 的 因子 平面 上 旋转 一 个 角 


度 2. 此 时 ， 
区 
-二 -人 (> 日 | 
1 一 1 大 1 一 1 7 
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为 了 使 
OV 0 
a 一 55 (Vi+ VV)=0, 
2 应 满足 ee 
一 0 
tan w = (9.48) 
其 中 


了 


了 p p 
9) 
2 一 1 2 一 1 ve 


一 2 一 1 


2 2 
Qil Qi2 
9 = 一 一 一 -一 -一 一 - = 1 2 站 了 


对 于 m > 2 的 情况 ， 需 要 作 多 次 的 旋转 变换 ， 这 里 就 不 再 介绍 其 方法 了 ， 
因为 R 软件 中 的 varimax() 函数 可 以 完成 因子 载荷 怎 阵 的 旋转 变换 (或 反射 变 
换 ). 它们 的 使 用 格式 为 

varimax(x, normalize = TRUE, eps = le-5) 
其 中 x 是 因子 载荷 矩阵 ， normalize 是 逻辑 变量 ， 即 是 否 对 变量 进行 Kaiser 正 
则 化 . eps 是 迷 代 终止 精度 . 
例 9.10 用 varimax() 函数 对 例 9.7、 例 9.8 和 例 9.9 中 得 到 的 因子 载荷 矩阵 作 
旋转 变换 ， 使 其 方差 达到 最 大 . 

解 : 用 自 编 的 函数 factor.analy() 得 到 三 种 方法 计算 的 因子 载荷 估计 和 矩 
阵 ， 再 用 varimax() 函数 得 到 方差 最 大 的 因子 载荷 矩阵 ， 以 主因 子 方法 计算 为 
例 ， 基 本 格式 为 


> Source("factor .analy.R") 




















> fa<-factor.analy(R, m=2, method="princomp") 

> vml<-varimax(fa$loadings, normalize = F); vml 

将 程序 中 的 "princomp" 改 为 "factor" 和 "likelihood", 就 可 得 到 另外 两 
种 方法 的 计算 结果 ， 具 体 的 计算 结果 列 在 表 9.5 中 . 


9.2.5 ”因子 分 析 的 计算 函数 


事实 上 , 在 R 软件 中 , 提供 了 作 因 子 分 析 计 算 的 函数 一 factanal() 函数 ， 
它 可 以 从 样本 数据 、 样 本 的 方差 矩阵 和 相关 和 窍 阵 出 发 对 数据 作 因子 分 析 ,， 并 可 直 
接 给 出 方差 最 大 的 载 集 因子 矩阵 . 
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表 9.5: 旋转 后 的 因子 载 符 矩阵 


一 0.278 ”一 0.934 | 一 0.299 ”一 0.913 
一 0.380 ”一 0.891 | 一 0.399 ”一 0.869 
一 0.547 ”一 0.770 | 一 0.561 ”一 0.736 
一 0.715 ”一 0.624 | -0.711 一 0.610 
一 0.816 ”一 0.521 | 一 0.812 ”一 0.516 


一 0.904 “一 0.385 | 一 0.906 一 0.377 
一 0.905 ”一 0.393 | 一 0.912 ”一 0.382 
一 0.937 ”一 0.257 | 一 0.913 ”一 0.265 


4.211 3.289 4.215 3.127 
0.526 0.411 0.527 0.391 
0.526 0.938 0.527 0.918 


0.762 0.648 0.771 0.637 
一 0.648 0.762 | 一 0.637 0.771 





函数 factanal() 采用 极 大 似 然 法 佑 计 参 数 ， 其 使 用 格式 为 
factanal (x, factors, data = NULL, covmat = NULL, n.obs = NA， 
subset, na.action, start = NULL ， 
scores = c('"none", "regression", "Bartlett"), 
rotation = "varimax", control = NULL, ...) 
其 中 x 是 数据 的 公式 , 或 者 是 由 数据 (每 个 样本 按 行 输入 ) 构成 的 矩阵 , 或 者 是 数 
据 框 ， factors 是 因子 的 个 数 ， data 是 数据 框 ， 当 x 由 公式 形式 给 出 时 使 用 . 
covmat 是 样本 的 协 方差 窒 阵 或 样本 的 相关 矩阵， 此 时 不 必 输 入 变量 x. scores 
表示 因子 得 分 的 方法 ， scores="regression", 表示 用 回归 方法 计算 因子 得 分 ， 
当 参 数 为 scores="Bartlett", 表示 用 Bartlett 方法 计算 因子 得 分 (具体 意义 见 
下 小 节 ), 缺 省 值 为 "none"", 即 不 计算 因子 得 分 ， rotation 表示 旋转 ， 缺 省 值 
为 方差 最 大 旋转 ， 当 rotation="none" 时 ， 不 作 旋 转变 换 . 
例 9.11 取 m = 2, 用 factanal() 函数 估计 例 9.7 因子 载荷 和 共性 方差 等 指 
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示 ， 参 数 选 择 方 差 最 大 . 


| 


> fa<-factanal (factors=2, covmat=R); fa 
Call: 
factanal(factors = 2, covmat = R) 
Uniquenesses : 

X1 X2 X3 X4 X5 X6 X7 X8 
0.081 0.075 0.152 0.135 0.082 0.033 0.018 0.087 
Loadings: 


Factor1 Factor2 


X1 0.291 0.913 
X2 0.382 0.883 
X3 0.543 0.744 
X4 0.691 0.622 
X5 0.799 0.529 
X6 0.901 0.393 
X7 0.907 0.399 
X8 0.914 0.278 
Factor1 Factor2 
SS loadings 4.112 3.225 


Proportion Var 0.514 0.403 
Cumulative Var 0.514 0.917 
The degrees of freedom for the model is 13 and the fit was 0.3318 


在 上 述 信 息 中 ， call 表示 调用 函数 的 方法 uniquenesses 是 特殊 方差 ， 
即 o2 的 值 ， loadings 是 因子 载荷 矩阵 ， 其 中 Factor1 Factor2 是 因子 ， 
X1 X2 ... X8 是 对 应 的 变量 . SS loadings 是 公共 因子 f; 对 变量 X1, Xo， 
…，Xp 的 总 方差 贡献 ， 即 g? = > Proportion Var 是 方差 贡献 率 ， 即 


2 了 2 
97/ ) Var(Xi). Cumulative Var 是 累积 方差 贡献 率 ， 即 >》 gx/ > Var(X;). 
2 k=1 =1 


在 计算 结果 中 ， 因 子 有 后 几 个 变量 (Xe, X7, Xs) 的 载 位 因子 接近 于 1, 这 些 
变量 涉及 的 是 长 跑 ， 因 此 可 称 有 i 是 耐力 因子 . 而 因子 fo 中 前 几 个 变量 (Xi X2) 
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接近 1, 涉及 的 是 短跑 ， 因 此 可 称 fs 是 速度 因子 . 


例 9.12 现 有 418 名 应 聘 者 应 聘 某 公司 的 某 职位 ， 公 司 为 这 些 应 聘 者 的 15 项 指 
标 打 分 ， 其 指标 与 得 分 情况 见 第 三 章 例 9.17. 试用 因子 分 析 的 方法 对 15 项 指标 
作 因 子 分 析 ， 在 因子 分 析 中 选取 5 个 因子 . 

解 : 读数 据 (由 例 3.17 知 ， 数 据 在 数据 文件 applicant .data 中 ), 再 调用 天 
数 factanal() 进行 因子 分 析 . 


> rt<-read.table("../chapter03/applicant .data'") 


> factanal(*., factors=5, data=rt) 

Call: 

factanal(x = ~., factors = 5, data = rt) 
Uniquenesses : 


FL APP AA LA SC LC HON SMS EXP DRV 
0.439 0.597 0.509 0.197 0.118 0.005 0.292 0.140 0.365 0.223 
AMB GSP POT KJ SUIT 
0.098 0.119 0.084 0.005 0.267 
Loadings: 
Factor1 Factor2 Factor3 Factor4 Factor5 
FL 0.127 0.722 0.102 -0.117 


APP 0.451 0.134 0.270 0.206 0.258 
AA 0.129 0.686 

LA 0.222 0.246 0.827 

SC 0.917 0.167 

LC 0.851 0.125 0.279 -0.420 
HON 0.228 -0.220 0.777 

SMS 0.880 0.266 0.111 

EXP 0.773 0.171 

DRV 0.754 0.393 0.199 0.114 
AMB 0.909 0.187 0.112 0.165 
GSP 0.783 0.295 0.354 0.148 -0.181 
POT 0.717 0.362 0.446 0.267 

KJ 0.418 0.399 0.563 -0.585 
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SUIT 0.351 0.764 0.148 
Factor1 Factor2 Factor3 Factor4 Factor5 
SS loadings 5.490 2.507 2.188 1.028 0.331 


Proportion Var 0.366 0.167 0.146 0.069 0.022 
Cumulative Var 0.366 0.533 0.679 0.748 0.770 
Test of the hypothesis that 5 factors are sufficient. 

The chi Square statistic is 60.97 on 40 degrees of freedonm. 
The p-value is 0.0179 

第 一 行 是 读数 据 ， 得 到 的 rt 是 数据 框 格式 ， 第 二 行 作 因子 分 析 ，“. 表示 
全 部 变量 . 

在 得 到 的 结果 中 ,公共 因子 还 有 比较 鲜明 的 实际 意义 . 

第 一 公共 因子 中 ， 系 数 绝对 值 大 的 变量 主要 是 SC( 自 信心 ), LC( 洞 察 力 )， 
SMS( 推 销 能 力 )， DRV (驾驶 水 平 ), AMB( 事 业 心 ), GSP( 理 解 能 力 ), POT( 潜 在 能 
力 ), 这 些 主要 表现 求职 者 外 露 能 力 ; 

第 二 公共 因子 系数 绝对 值 大 的 变量 主要 是 ，FL( 求 职 信 的 形式 ), EXP( 经 验 )， 
SUIT( 适 应 性 ), 这 些 主要 反映 了 求职 者 的 经 验 ; 

第 三 公 系数 绝对 值 大 的 变量 主要 是 : LA( 讨 人 喜欢 ), HON( 诚 实 ), 它 主要 反 
映 了 求职 者 提 和 否 讨 人 袁 欢 ; 

第 四 、 五 公共 因子 系数 绝对 值 较 小 ， 这 说 明 这 两 个 公共 因子 相对 次 要 一 些 . 
第 四 公共 因子 相对 较 大 的 变量 是 。 AA( 专 业 能 力 ), KJ( 交 际 能 力 ), 它 主 要 反映 了 
求职 者 的 专业 能 力 ; 第 五 公共 因子 相对 较 大 的 变量 是 : APP( 外 貌 ), LC( 洞 察 力 )， 
它 主要 反映 求职 者 的 外 貌 . 














9.2.6 ”因子 得 分 


迄今 为 止 ， 已 介绍 了 如 何 从 样本 协 方差 矩阵 5 或 相关 矩阵 RR 来 得 到 公共 因 
子 和 因子 载荷 ， 并 给 出 相应 的 实际 彰 景 . 当 我 们 得 到 公共 因子 和 因子 载 谷 后 ， 就 
应 当 反 过 来 考察 每 一 个 样本 .如 对 于 例 9.12, 在 得 到 五 个 公共 因子 后 ， 应 当 考 察 
48 名 应 聘 者 在 五 个 因子 的 得 分 情况 ， 这 样 可 以 便于 公司 从 中 挑选 更 适合 本 公司 
需要 的 人 员 . 

佑 计 因子 得 分 的 方法 有 两 种 : 一 是 加 权 最 小 二 乘法 ， 二 是 回归 方法 . 


1. 加 权 最 小 二 乘法 
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设 X 满足 因子 模型 (不 妨 设 / = 0)， 
X=AF+e. 
假定 因子 载荷 矩阵 4 和 特殊 因子 方差 矩阵 D 已 知 ， 考 虑 加 权 最 小 二 乘 函数 
pF)=(X—- AF) D1i(X— AF). 
求 忆 的 估计 值 ,使 得 P( 及 = minp(). 由 极 值 的 必要 条 件 得 到 
Rs (aD a) A DY (9.51) 

这 就 是 因子 得 分 的 加 权 最 小 二 乘 估计 . 

如 果 假 定 X ~ Nb(A8F, D), 则 由 式 (9.51) 得 到 的 下 也 是 对 的 极 大 似 然 估 
计 ， 该 方法 称 为 Bartlett 因子 得 分 . 


在 实际 问题 中 ， 式 (9.51) 中 的 4 和 D 用 估计 值 4 入 代替 ， X 用 样本 
XG) 来 代替 ， 此 时 ， 得 到 因子 得 分 Fe). 








2. 回归 法 
在 因子 模型 中 ， 也 可 以 反 过 来 ， 将 因子 表示 成 变量 的 线性 组 合 ， 即 
fi= PaXit+ PizX2t: + PipXp, 1=1,2,.…,m (9.52) 
来 计算 因子 得 分 . 称 式 (9.52) 为 因子 得 分 函数 .写成 矩阵 形式 


FPF= BX, (9.53) 


其 中 FF = (万 ， 户 ， 0 fo B= (Gi3) mxy: 
下 面 用 回归 的 方法 计算 式 (9.53) 中 8 的 估计 值 . 
假设 变量 X 已 标准 化 ， 公 共 因 子 F 也 已 标准 化 ， 并 假设 公共 因子 了 和 变 
量 X 满足 回归 方程 
万 二 DjX1 二 02A2 十 :十 bojpXp 十 5 了 二 27 (9.54) 


由 因子 载荷 矩阵 4 = (Qij)pxn 的 意义 ， 有 


Cov(Xi， f;) 一 Cov(Xi， bj1X1 十 bj2X» | bjpXp 十 Ej) 


bjirat 十 bj2Ti2 + + bjpTip, 

p 
3 TD i= 1,2,.…,p, j= 1,2,.……,m, (9.55) 
k=1 


Qij 
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即 
A= RB”, (9.56) 


其 中 R= (rij)pxp 为 相关 和 窍 阵 ， B = (bij)mxp. 因此 ， 用 

B= A'R-! (9.57) 
作为 8 的 估计 值 . 代入 式 (9.53) 得 到 

Fs= ATR 1!X. (9.58) 


式 (9.58) 是 因子 得 分 的 计算 公式 . 由 于 该 公式 是 由 回归 方程 得 到 的 ， 因 此 称 为 回 
归 法 . 此 方法 是 Thompson (1939) 提出 来 的 ， 也 称 为 Thompson 方法 . 

到 目前 为 止 ， 计 算 因子 得 分 的 两 种 估计 方法 到 底 哪 一 个 好 还 没有 定论 ， 
此 ， 及 软件 中 作 因 子 分 析 的 函数 factanal() 同时 给 出 了 两 种 方法 ， 当 参数 
scores='"regression" 时 ， 采 用 的 回归 法 ， 当 参数 为 scores="Bartlett" 时 ， 
采用 的 是 加 权 最 小 二 乘法 . 
例 9.13 计算 例 9.12 中 48 名 应 聘 者 的 因子 得 分 . 

解 : 
> rt<-read.table("applicant .data") 


> fa<-factanal(*., factors=5, data=rt, scores="regression'") 


这 里 采用 的 是 回归 法 . fa$scores 将 给 出 48 名 应 聘 者 在 5 个 公共 因子 的 得 分 
情况 ( 略 ). 为 直观 起 见 ， 画 出 48 位 应 聘 者 在 第 一 、 第 二 公共 因子 下 的 散 点 图 ， 
> plot (fa$scores[, 1:2], type="n" 

> text(fa$scores[,1], fa$scores[,2]) 


其 图 形 如 图 9.4 所 示 . ”由 前 面 分 析 可 知 ， 第 一 公共 因子 主要 表现 求职 者 外 露 能 
力 , 第 二 公共 因子 主要 表现 求职 者 的 经 验 . 公司 可 以 选择 两 者 得 分 都 比较 高 的 应 
聘 者 , 如 39、40、7、8、9 和 2 号 应 聘 者 . 如 偏重 外 露 能 力 ， 则 选取 第 一 
公共 因子 得 分 较 大 的 应 聘 者 . 如 偏重 经 验 ， 则 可 以 考虑 第 二 公共 因子 得 分 较 大 的 
应 聘 者 . 公司 也 可 以 根据 情况 ， 画 出 第 二 、 第 三 公共 因子 得 分 的 散 点 图 ， 或 选择 
Bartlett 方法 计算 因子 得 分 . 
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图 9.4: 48 位 应 聘 者 在 第 一 、 第 二 公共 因子 下 的 散 点 图 


9.3 ”典型 相关 分 析 


典型 相关 分 析 (canonical correlation analysis) 是 用 于 分 析 两 组 随机 变量 之 
间 的 相关 性 程度 的 一 种 统计 方法 , 它 能 够 有 效 地 揭示 两 组 随机 变量 之 间 的 相互 线 
性 依赖 关系 .这 一 方法 是 由 Hotelling ( 霍 特 林 ， 1935) 首先 提出 来 的 . 


在 实际 问题 中 ， 经 常 遇 到 要 研究 一 部 分 变量 与 另 一 部 分 变量 之 间 的 相互 关 
系 . 例如 ， 在 工厂 ， 考 察 原 料 的 主要 指标 (Xi X?，…,Xp) 与 产品 的 主要 指标 
Ga, 2 Yo 在 经 济 学 中 ， 研 究 主 要 肉食 品 的 价格 与 销售 之 间 的 关系 ; 在 地 
质 学 中 ,为 研究 岩石 形成 的 成 因 关系 ,考察 岩石 的 化 学 成 分 与 其 周围 岩 化 学 成 分 
的 相关 性 ; 在 教育 学 中 ,考察 研究 生 入 学 考试 成 绩 与 本 科 阶 段 一 些 主要 谋 程 成 绩 

一 般 地 , 假设 有 两 组 随机 变量 Xi XX2,… ,Xp 和 六,】2,…, 2 研究 它们 的 相 
关 关 系 , 当 p = 4 = 1 时 , 就 是 通常 两 个 变量 X 与 了 的 相关 关系 . 当 p>>1,g>1 
时 ， 采 用 类 似 于 主 成 分 分 析 的 方法 ， 找 出 第 一 组 变量 的 线性 组 合 UV 和 第 二 组 变 
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量 的 线性 组 合 V, 即 


(Bt a1X1 十 ao2Xs? | “二 Qp Xp, 
V = Ob + + oY, 





于 是 将 研究 两 组 变量 的 相关 性 问题 转化 成 研究 两 个 变量 的 相关 性 问题 , 并 且 可 以 
适当 地 调整 相应 的 系数 a,b, 使 得 变量 VU 和 V 的 相关 性 达到 最 大 ， 称 这 种 相关 为 
典型 相关 ， 基 于 这 种 原则 的 分 析 方 法 称 为 典型 相关 分 析 . 

9.3.1 总体 典 型 相关 


1. 典型 相关 的 定义 


设 针 = (各 ,Xz,… ,Xp) ,二 (六 ,72,…,】)” 为 随机 向 量 , 用 和 与 了 的 
线性 组 合 a X 和 WY 之 间 的 相关 来 研究 X 与 》 之 间 的 相关 ， 并 希望 找到 a 与 
b, 使 p(a”X,b”Y) 最 大 ， 由 相关 系数 的 定义 ， 


Cov(aT X, biY) 


Ty Ty _ 
pla’ X,b Y)= /a (9.59) 
对 任意 的 oO 和 c,d, 有 
p(a(atX)+B,c(bIY)+d) =p(arX,bY). (9.60) 


式 (9.60) 说 明 使 得 相关 系数 最 大 的 a?X 和 V7?Y 并 不 惟一 . 因此， 在 综合 变量 
时 ， 可 限定 
Var(o X)=1, Var(b’Y)=1. 


X 
设 入 = (Xi, XX "Y= (Yi, 久 ,… ,7)"，p 十 q 维 随机 向 量 (y 
的 均值 为 0， 协 方差 阵 并 > 0. 若 存在 ai = (all， CQ12， *“*) aip)” 和 bi = (b11, b12, 
max p(a’ X, BTY), (9.61) 
s.t. Var(a7 X)=1, (9.62) 
Var(G7Y) = 1 (9.63) 
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目标 函数 的 最 大 值 ， 则 称 V1 = af XX, Vi = 01Y 为 X,Y 的 第 一 对 (组 ) 典型 变 
量 (canonical variates), 称 它们 之 间 的 相关 系数 p(Ui, WV) 为 第 一 典型 相关 系数 
(canonical correlation). 

如 果 存 在 a = (api, ak Qip) 和 bi = (bri, bk2,**， big) 使 得 

(1) ax 义 ,bY 和 前 面 的 一 1 对 典型 变量 都 不 相关 ; 

(2) Var(af X)=1, Var(bfY)=1; 

(3) akX 与 以 Y 相关 系数 最 大 . 
则 称 Ui = ofX, Vi = bXY 为 X,Y 的 第 k 对 (组 ) 典型 变量 ， 称 它们 之 间 的 相关 
系数 p(Ur, Vi) 为 第 有 (KE = 2,3,.…,min{p,9}) 典型 相关 系数 . 

2. 典型 变量 和 典型 相关 系数 的 计算 


太志 二 的 则 有 
人 y 》 


BE(Z)=0, Var(2) = 了 = 各 | ， 


221 222 


令 口 =oXY =WWY, 因此， 求解 第 一 对 典型 变量 和 典型 相关 系数 的 约束 优化 
问题 (9.61)-(9.63) 就 等 价 为 


max p(U,V) = a 5128, (9.64) 
st. aliYua=1, (9.65) 
BTY22B = 1. (9.66) 


这 是 一 个 典型 的 约束 优 问题 ， 这 里 采用 约束 问题 的 一 阶 必 要 条 件 进行 求解 . 
构造 约束 问题 (9.64)-(9.66) 的 Lagrange 函数 


L(a, pb, 入 ) 一 ai = 2 (ao iaa = 1) = 2 (552220 == 1) 5 


其 中 入 = (Xi A2) 为 Lagrange 乘 子 . 
由 约束 问题 (9.64)-(9.66) 的 一 阶 必要 条 件 


OL  ， 6 


一 二 一 二 0 Tyua=1 T1528 =1. 
Ba ) 55 ) Q 1Q ) B’ 2220 
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得 到 如 下 方程 
2120 一 AZ11Q 一 0, (9.67) 
2210 一 ?2220 = 0, (9.68) 
QiYua = 1, (9.69) 
BiY2B = 1. (9.70) 


下 面 求解 该 方程 . 在 式 (9.67) 上 左 乘 a7, 式 (9.68) 上 左 乘 人 87, 再 利用 式 
(9.69) 和 式 (9.70), 得 到 Al = 和 2 = 入 

由 于 习 > 0, 所 以 2 2 到 存在 ， 整 理 式 (9.67) 和 式 (9.68) 得 到 

A Hd AO = Dd, (9.71) 

所 以 有 

Na = D7 2Yy Ya = Ma, NB= 332B = MB, (9.72) 
其 中 Mi = B77 31533 5a, Mo = D3 YY D12. 

因此 ， 六 是 矩阵 Mi 或 Mi 的 特征 值 (注意 ， Mi 和 M。 有 相同 的 特征 值 )， 
a 是 Mi 特征 值 入 对 应 的 特征 向 量 ， 6 是 Mi 特征 值 入 对 应 的 特征 向 量 . 


由 于 
Qa 128 = Ma Pia = MGT DB 一 入， 


因此 ， 优 化 问题 (9.64)-(9.66) 的 解 a1,b 是 求 Mi 或 M2 最 大 特征 值 MM 和 相应 
的 满足 





多 中 = 
的 特征 向 量 c 和 6. 
下 面 给 出 计算 过 程 : 
() 令 Mi = DT D1 2; 
(2) 计算 Mi 的 最 大 特征 值 六 和 相应 的 特征 向 量 ai, 令 


D1 3 D3 Doo Q1 一 ai/Vafznaan， 0 = B1/ Y BEY 


则 Ai = VAi 为 第 一 对 典型 相关 系数 ，U1 = af 六 ,Vi = 好 为 第 一 对 典型 变量 . 
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对 于 第 上 对 典型 相关 变量 的 求解 方法 类 似 于 第 1 对 典型 相关 变量 ， 求 解 第 
个 最 大 特征 值 和 相应 的 特征 向 量 . 略 去 推导 过 程 ， 只 需 将 上 面 的 第 二 步 改 为 : 
(2 计算 Mi 的 第 大 大 特征 值 % 和 相应 的 特征 向 量 ax, 令 


Bk = Ya Yodag, 一 ax/ Ql Vio, 及 二 Be / VY BEE22pe, 


则 入 = Vx 为 第 大 对 典型 相关 系数 ， Ui = 能 和 Vi = 克也 为 第 对 典型 变 


三 


量 . 


9.3.2 ”样本 典型 相关 


设 总 体 2 = (2 XX2,… Xp, 六,Y2，,… ,Ya)”， 在 实际 中 ， 总 体 的 均值 向 量 
(2Z) = kh 和 协 方差 矩阵 Cov(2) = > 通常 是 未 知 的 ， 因 而 无 法 求 得 总 体 的 典型 
变量 和 典型 相关 系数 ， 因 此 需要 根据 样本 对 忆 进行 估计 . 

已 知 总 体 2 的 n 次 观测 数据 


Xi 
2A0) = ) 1 一 1,2,.…,n, 
(2 六 

(i) 4 (p+q)x1 


于 是 样本 资料 为 
V11 X12 ”wp YIll VY12 *** Vilg 
V21 X22 i Vop VY21 /22 *** VY2g 
Tnl Zn2 i Vnp Vnl Yn2 *** Yng 


假设 2 ~ Npjo(4, 光 ), 则 协 方 差 矩 阵 的 极 大 似 然 估 计 为 
1] = _ 下 
9 (3 - 习 ， 
二 3 Za 称 矩 阵 人 为 样本 协 方差 阵 . 
因此 ， 关 于 样本 典型 变量 的 计算 ， 只 需要 将 矩阵 Mi 或 Ms 中 的 D11, 312， 
22, 22 换 成 3, 12, 1, 2 即 可 ， 因 此 计算 过 程 为 
() 令 AM = 号 入 
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(2) 计算 Mi 的 全 部 特征 值 X > 和 总 > … > 入 ,其 中 m= min(p,9), 和 相应 
的 特征 向 量 ax, 有 = 1,2,.…,m, 令 


Bx = D3 Yoroy, Qk = ak/V oa 全 11a， bi = BA] DT 人 2D， 


则 和 % = VX 为 第 及 对 样本 典型 相关 系数 ， Ui = XX, 仅 三 雁 了 为 第 大 对 样本 
典型 变量 . 


9.3.3 ”典型 相关 分 析 的 计算 
R 软件 提供 了 典型 相关 分 析 的 计算 ， 其 计算 形式 为 


cancor(x, y, xcenter = TRUE, ycenter = TRUE) 
其 中 x, y 是 相应 的 数据 矩阵 ， xcenter, ycenter 是 逻辑 变量 ， TRUE 是 将 数据 
中 心 化 ， FLASE 是 不 中 心 化 ( 缺 省 值 是 TRUE). 
例 9.14 某 康复 俱乐部 对 20 名 中 年 人 测量 了 三 个 生理 指标 : 体重 (Xi) 、 腰 转 
(X2) 、 脉 搏 (X3s) 和 三 个 训练 指标 ， 引 体 向 上 (并) 、 起 坐 次 数 〈22) 、 跳 跃 次 数 
(XY3). 其 数据 列 在 表 9.6 中 . 试 对 这 组 数据 进行 典型 相关 分 析 . 


表 9.6: 康复 俱乐部 测量 的 生理 指标 和 训练 指标 
4 1 


1 5 162 60 189 37 52 110 60 
2 12 101 101 162 35 62 105 37 
3 13 155 58 182 36 56 101 42 
4 8 101 38 167 34 60 125 40 
5 15 200 40 154 33 56 251 250 
6 17 120 38 166 33 52 210 115 
了 215 247 46 50 50 50 
8 70 202 37 62 210 120 
9 60 157 32 52 230 80 
10 138 33 68 110 43 
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解 : 用 数据 框 的 形式 输入 数据 , 为 消除 数据 数量 级 的 影响 , 先 将 数据 标准 化 ， 
再 调用 函数 cancor() 进行 计算 (程序 名 : ”exam0914.R) 


test<-data.frame( 
X1=c(191, 193, 189, 211, 176, 169, 154, 193,，176，156, 
189，162，182，167，154，166，247，202，157，138) ， 
X2=c(36，38，35，38，31，34，34，36，37，33， 
37，35，36，34，33，33，46，37，32，33) ， 
X3=c(50，58，46，56，74，50，64，46，54，54， 
52，62，56，60，56，52，50，62，52，68) ， 
Y1=c( 5, 12, 13, 8, 15, 17, 14, 6, 4, 15, 
2 12 4 ' 6 317, 13, -1 12;, 41 2) 
Y2=c(162, 101, 155, 101, 200, 120, 215, 70, 60，225， 
110, 105, 101, 125, 251, 210, 50，210，230，110) ， 
Y3=c(60，101，58，38，40，38，105，31，25，73， 
60，37，42，40，250，115，50，120，80，43) 
) 
test<-scale(test) 


ca<-cancor(test[,1:3] ,test[,4:6]) 
计算 结果 为 


> ca 
$cor 
[1] 0.79560815 0.20055604 0.07257029 
$xcoef 
[,1] [,2] [,3] 

X1 -0.17788841 -0.43230348 -0.04381432 
X2 0.36232695 0.27085764 0.11608883 
X3 -0.01356309 -0.05301954 0.24106633 
$ycoef 

[,1] [,2] [,3] 
Y1 -0.0801801 -0.08615561 -0.29745900 
Y2 -0.2418067 0.02833066 0.28373986 
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Y3 0.1643596 0.24367781 -0.09608099 
$xcenter 
X1 X2 X3 
2.331468e-16 4.385381e-16 -2.220446e-16 
$ycenter 
Y1 Y2 Y3 
1.443290e-16 -1.776357e-16 2.775558e-17 
其 中 cor 是 典型 相关 系数 . xcoef 是 对 应 于 数据 X 的 系数 ,也 称 为 关于 数据 X 
的 典型 载 集 (canonical loadings), 即 样本 典型 变量 U 系数 矩阵 4 的 转 置 . ycoef 
是 对 应 于 数据 了 的 系数 ， 也 称 为 关于 数据 Y 的 典型 载荷 ， 即 样本 典型 变量 V 
系数 矩阵 B 的 转 置 ,。 $xcenter 是 数据 X 的 中 心 ， 即 数据 X 的 样本 均值 X. 
$ycenter 是 数据 Y 的 中 心 ， 即 数据 Y 的 样本 均值 了 . 由 于 数据 已 作 了 标准 化 
处 理 ， 因 此 这 里 计算 出 的 样本 均值 为 0. 
对 于 康复 俱乐部 数据 ， 与 计算 结果 相对 应 的 数学 意义 是 
Ui = 一 0.178X1T + 0.362X; 一 0136X3， 
Us = 一 0.432X1 + 0.271X> 一 0.0530X3， (9.73) 
Us = 一 0.0438X1T 十 0.116X。， 十 0.241X3， 





Vi = —0.0802Y™ — 0.242Y; + 0.164Y:, 
Va = —0.08615Y? + 0.0283Y? + 0.244Y», (9.74) 
Vs = 一 0.297Y* + 0.284Y2 — 0.0961Y», 


其 中 X?, Yi*, i 二 1,2,3 是 标准 化 后 的 数据 ， 相 应 的 相关 系数 为 


p(Ui1, Vi) = 0.796,  p(Uz, Va) = 0.201, p(Us, V3) = 0.0726. 


由 式 (9.60) 可 知 ， 式 (9.73) 和 式 (9.74) 的 系数 并 不 惟一 ， 是 它们 的 任意 倍 
均 可 . 

下 面 计算 样本 数据 在 典型 变量 下 的 得 分 . 由 于 U = 4X, V = BY, 所 以 得 
分 的 及 程序 为 

U<-as.matrix(test[, 1:3])%*% ca$xcoef 


V<-as.matrix(test[, 4:6])%*% ca$ycoef 
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画 出 以 相关 变量 01, Vi 和 Us, V3 为 坐标 的 数据 散 点 图 ， 其 命令 为 
plot(U[;1], VL,1], xlab="U1", ylab="V1') 
plot(y[3] ; VI], as yhabsuyary 


其 图 形 如 图 9.5 和 图 9.6 所 示 . 
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图 9.6: 第 三 典型 变量 为 坐标 的 散 点 图 
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观察 这 两 张 图 ， 你 会 发 现 ， 图 9.5 中 的 点 基本 上 在 一 条 直线 附近 ， 而 图 9.6 
中 的 点 ， 基 本 上 分 布 很 散 , 这 是 为 什么 呢 ? 事实 上， 图 9.5 画 的 是 第 一 典型 变量 
的 散 点 图 ， 其 相关 系数 为 0.796, 接近 于 1, 所 以 在 一 直线 附近 ， 而 图 9.6 画 的 是 
第 三 典型 变量 的 散 点 图 ， 其 相关 系数 为 0.0726, 接近 于 0, 所 以 很 分 散 . 


9.3.4 ”典型 相关 系数 的 显著 性 检验 


作 相 关 分 析 的 目的 ， 与 前 面 的 主 成 分 分 析 、 因 子 分 析 类 似 ， 都 是 利用 降 维 的 
方法 来 处 理 数 据 ， 这 里 同样 存在 着 一 个 问题 ,就 是 选择 多 少 对 典型 变量 ? 要 回答 
这 一 问题 ， 就 需要 作 典 型 相关 系数 的 显著 性 检验 ， 知 认为 典型 相关 系数 px = 0， 
则 就 不 必 考 虑 第 对 典型 变量 . 

1. 全 部 总 体 典型 相关 系数 均 为 零 的 检验 


X 
设 ( ; ) ~ Nmalh 忆 ), 台 > 0. 3 为 样本 的 协 方 卷 拭 陈 ， ”为 样本 个 数 ， 且 
n> 二 pg. 
考虑 假设 检验 问题 
Ho:p1 二 pz 二 … 二 pm 二 0， i :至 少 一 个 pi 不 为 0， (9.75) 
其 中 m= min{p, gq}. 
若 检验 接受 印 , 则 认为 讨论 两 组 变量 之 间 的 相关 性 没有 意义 ， 若 检验 拒绝 
到 , 则 认为 第 一 对 典型 变量 是 显著 的 ， 事 实 上 ， 式 (9.75) 等 价 于 假设 检验 问题 








万 0 >12 全 二 0， Hi >12 天 0. (9.76) 
当 Ho 成 立 ， 表明 X 与》 互 不 相关 . 似 然 比 检验 统计 量 为 
A=][G 7) (9.77) 
一 | 
对 于 充分 大 的 n, 当 Ho 成 立时 ， 统 计量 
二 汪 [ a >(p+ q+ 引 Im Ai (9.78) 





近似 服从 自由 度 为 Pd 的 Xx? 分布， 在 给 定 的 显著 性 水 平 a 下 ， 若 Q1 > Xa(pg)， 
则 拒绝 原 假设 Ho, 认为 典型 变量 01 与 Vi 之 间 相 关 性 显著 ， 否 则 认为 第 一 典型 
相关 系数 不 显著 .在 这 种 情况 下 ， 就 没有 必要 作 典 型 相关 分 析 了 . 
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2. 部 分 总 体 典 型 相关 系数 均 为 零 的 检验 


假设 前 上 个 典型 相关 系数 是 显著 的 ， 现 要 检验 第 上 + 1 个 典型 相关 系数 是 否 
显著 ， 则 作 如 下 检验 ， 


五 0: pp = pa = 二.… 二 pm 二 0， 了 且 :至 少 一 个 pi 不 为 0. (9.79) 


其 检验 统计 量 为 








mm 


Aim= |[ = 了 (9.80) 


i=k+1 
对 于 充分 大 的 n, 当 Ho 为 真 时 ， 统 计量 
k 
Qjt1 = 一 nk (p+tat3) + Dr ln Ag+1 (9.81) 


2 一 1 
近似 服从 自由 度 为 (p -中 一 有 的 x 分布， 在 给 定 的 显著 性 水 平 a 下 ， 若 
Qk+1 Xa((p 一 避 (g 一 请 ), 则 拒绝 原 假设 Ho, 认为 第 十 1 个 典型 相关 系数 pk+l 
是 显著 的 ， 否 则 认 典 型 相关 系数 不 显著 ,那么 典型 变量 只 取 到 为止. 
3. 相关 系数 检验 的 R 程序 
按照 前 面 介绍 有 方法 编写 出 相应 的 R 程序 (程序 名 :corcoef .test.R) 


corcoef .test<-function(r, n, p, qd, alpha=0.1)1{ 





m<-length(r); Q<-rep(0, m); lambda <- 1 
for (k in m:1){ 
lambda<-lambda*(1-r[k] “2); 
Q[k]<- -log(lambda) 
} 
s<-0; i<-m 
for (k in 1:m){ 
Q[k]<- (n-k+1-1/2*(ptq+3)+s)*Q[k] 
chi<-1-pchisq(Q[k], (p-k+1)*(gq-k+1)) 
if (chi>alpha)t 
i<-k-1; break 
} 
s<-s+1/r[k] “2 
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程序 的 输入 值 是 相关 系数 7, 样本 个 数 n, 两 个 随机 向 量 的 维 数 p 和 q, 以 及 置信 
水 平 a( 缺 省 值 为 0.1). 程序 的 输出 值 是 典型 变量 的 对 数 . 
例 9.15 ( 续 例 9.14) 对 例 9.14 的 典型 相关 系数 作 检 验 . 

解 : 利用 计算 公式 所 编写 的 R 函数 corcoef .test() 作 检 验 . 


> source('"corcoef .test.R'") 
> corcoef .test(r=ca$cor, n=20, p=3,， qd=3) 
[1] 1 


只 需 第 一 对 典型 变量 .从 图 9.6, 我 们 也 可 以 看 到 ， 散 点 图 很 分 散 ， 无 法 给 出 相关 
言 轧 ， 同样 ， 画 第 二 典型 变量 的 散 点 图 ， 其 图 形 也 很 分 散 .， 因 此， 我 们 只 利用 第 
一 典型 变量 分 析 问 题 ， 达 到 降 维 的 目的 . 


习题 九 


9.1 用 主 成 分 方法 探讨 城市 工业 主体 结构 . 表 9.7 是 某 市 工业 部 门 十 三 个 
分 别 是 冶金 (1) 、 电 力 (2) 、 1 
(7) 、 食 品 , (8) 、 纺 织 (9) 、 缝 幼 (10) 、 皮 半 (11) 、 造 纸 (12) 和 文教 艺术 用 品 
(13), 入 个 指标 ,分别 是 年 未 国定 资产 净值 XI (万 元 )、 职 工人 数 Xo (人 )、 工 
业 总 产值 X3 (万 元 )、 全 员 劳 动 生产 率 X4 (元 / 人 年 )、 百 元 固定 原 值 实现 产 
值 X5 (元 )、 资 金利 税率 X6 ( 甸 )、 标 准 燃 料 消费 量 X7 (号 ) 和 能 源 利用 效果 
Xs (万 元 / 吨 ) 的 数据 . 

(1) 试用 主 成 分 分 析 方 法 确定 8 个 指标 的 几 个 主 成 分 ， 并 对 主 成 分 进行 解 
释 ，; 

(2) 利用 主 成 分 得 分 对 13 个 行业 进行 排序 和 分 类 . 
9.2 对 菜 地 区 的 某 类 消费 品 的 销售 量 Y 进行 调查 , 它 与 下 面 四 个 变量 有 关 : XI 
居民 可 支配 收入 ， Xs 该 类 消费 品 平 均 价 格 指数 ， Xs 社会 该 消费 品 保有 量 ， Xa 
其 他 消费 品 平均 价格 指数 ， 历 史 资 料 如 表 9.8 所 示 . 试 利 用 主 成 分 回归 方法 建 
立 销售 量 了 与 四 个 变量 XI, XX，, X3 和 X4 的 回归 方程 . 
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表 9.7: 某 市 工业 部 门 十 三 个 行业 人 个 指标 的 数据 


52455 
1973 
21139 
36241 
203505 
16219 
6572 
23078 
23907 
3930 
5704 
6155 
13203 


101091 
2035 
3767 

81557 
215898 
10351 
8103 
54935 
52108 
6126 
6200 
10383 
19396 


19272 
10313 

1780 
22504 
10609 

6382 
12329 
23804 
21796 
15586 
10870 
16875 
14691 


82.0 
34.2 
36.1 
98.1 
93.2 
62.5 
184.4 
370.4 
221.5 
330.4 
184.2 
146.4 
94.6 


16.1 
7.1 
8.2 

25.9 

12.6 
8.7 

22.2 

41.0 

21.5 

29.5 

12.0 

27.5 

17.8 


表 9.8: 某 类 消费 品 销售 的 原始 数据 


Xl 
82.9 
88.0 
99.9 
105.3 
117.7 
131.0 
148.2 
161.8 
174.2 
184.7 





X2 
92 
93 
96 
94 
100 
101 
105 
112 
112 
112 


17.1 
21.3 
25.1 
29.0 
34.0 
40.0 
44.0 
49.0 
51.0 
53.0 


Xa 
94 
96 
97 
97 
100 
101 
104 
109 
111 
111 


197435 
592077 
726396 
348226 
139572 
145818 
20921 
65486 
63806 
1840 
8913 
78796 
6354 


8.4 

9.6 

10.4 
11.4 
12.2 
14.2 
15.8 
17.9 
19.6 
20.8 
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9.3 对 305 名 女 中 学 生 测 量 八 个 体型 指标 , 相应 的 相关 矩阵 见 例 8.7 中 的 表 8.5 所 
示 , 试用 因子 分 析 的 方法 对 这 入 个 体型 指标 进行 分 析 ， 找 出 公共 因子 ， 并 给 出 合 
理 的 解释 . 

9.4 为 考查 学 生 的 学 习 情 况 ， 学 校 随机 的 柏 取 12 名 学 生 的 5 门 课 期 末 考 试 的 
成 绩 ， 其 数据 见 例 3.18 中 的 表 93.6, 试用 因子 分 析 的 方法 对 这 种 数据 进行 分 析 . 

(1) 找 出 五 门 课 程 的 公共 因子 ， 并 进行 合理 的 解释 ，; 

(2) 用 回归 方法 或 Bartlett 方法 计算 样本 的 因子 得 分 ， 画 出 因子 得 分 的 第 
一 、 第 二 公共 因子 的 散 点 图 ， 通 过 这 些 散 点 图 来 分 析 这 12 名 学 生 的 学 习 情 况 . 
9.5 和 欲 研 究 儿 童 形态 与 肺 通气 功能 的 关系 ， 测 得 某 小 学 40 名 8~12 岁 健 康 儿 童 
形态 (身高 、 体 重 和 胸围 ) 与 肺 通气 功能 (肺活量 、 静 息 通气 和 每 分 钟 最 大 通气 
量 ), 数据 如 表 9.9 所 示 . 试 分 析 儿 童 形态 指标 与 肺 通气 指标 的 相关 系 ， 确 定 典型 
变量 的 对 数 . 

表 9.9: 儿童 形态 肺 通气 功能 指标 表 
儿童 形态 肺 通气 功能 


序 | 身高 体重 ”胸围 | 肺活量 静 息 通气 每 分 钟 最 大 
号 | (cm)XI (kg)X2 (cm)Xs | (LY 量 (D)]。 通气 量 (L)% 
1 2.67 7.00 108.0 
2 2.08 6.98 91.7 
3 2.62 6.17 101.8 
4 2.89 10.42 112.5 
5 2.14 7.47 97.5 
6 2.86 9.25 92.4 
3.14 8.78 95.4 
8 A 5.31 77.2 
9 2.91 10.69 80.8 
10 2.33 11.15 76.7 
11 1.98 7277 49.9 
12 3.29 3.35 58.0 
13 2.74 10.11 82.4 
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表 9.9( 续 ): 儿童 形态 肺 通气 功能 指标 表 


身高 体重 ”胸围 | 肺活量 静 息 通气 每 分 钟 最 大 
(em)jXi (kgjXa (cm)X3 | (LY 量 (LW 通气 量 (LjY 


2.44 7.82 76.5 
2.98 6 88.1 
SY: 19.14 110.3 
2.25 8.75 75.1 
2.96 6.60 pa 
2.13 6.62 105.4 
2.52 5.59 82.0 
1.92 5.81 92.7 
2.02 6.42 78.2 
2.64 8.00 89.1 
2.87 9.09 61.8 
2.71 10.20 98.9 
2.92 6.16 83.7 
2.79 9.50 84.0 
2.27 8.92 71.0 
2.86 12.03 125.4 
2.67 7.00 108.0 
2.38 6.98 91.7 
2.62 4 101.8 
2.89 10.42 112.5 
2.14 yh 97.5 
2.66 9.25 92.4 
2.75 8.78 95.4 
2.19 5.91 77.2 
2.91 10.69 80.8 
2.63 11.15 76.7 


2.01 7.77 49.9 
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在 用 传统 的 方法 难以 解决 的 问题 中 , 有 很 大 一 部 分 可 以 用 概率 统计 模型 进行 
描述 . 由 于 这 类 模型 难以 作 定 量 分 析 ， 得 不 到 解析 结果 ， 或 者 有 解析 结果 但 工作 
量 太 大 以 至 无 法 实现 . 另外， 即便 是 确定 性 模型 ， 也 有 可 能 得 不 到 解析 的 结果 . 
在 这 种 情况 下 ， 可 以 采用 计算 机 模拟 的 方法 来 分 析 和 解决 问题 . 

本 章 介绍 最 基本 的 计算 机 模拟 方法 ,和 与 计算 机 模拟 密 不 可 分 的 Monte Carlo 
方法 . 


10.1 概率 分 析 与 Monte Carlo 方法 


10.1.1 ”概率 分 析 


概率 分 析 是 指 用 概率 的 方法 来 分 析 和 讨论 随机 模型 下面 请 看 一 个 例子 . 
例 10.1 ( 赶 火 车 问题 ) 

一 列 火 车 从 4 站 开 往 B 站 ， 某 人 每 天 赶 往 站 上 火车 . 他 已 了 解 到 火车 从 
4 站 到 B 站 的 运行 时 间 是 服从 均值 为 30 分钟， 标准 差 为 2 分 钟 的 正 态 随机 变 
量 . 火车 大 约 下 午 19 点 离开 4 站 ， 此 人 大 约 13:30 达到 BB 站. 火车 离开 4 站 
的 时 刻 及 概率 如 表 10.1 所 示 . 此 人 到 达 B 站 的 时 刻 及 概率 如 表 10.2 所 示 . 问 
他 能 赶 上 火车 的 概率 是 多 少 ? 

表 10.1: 火车 离开 A 站 的 时 刻 及 概率 
火车 离 站 时 刻 13:00 13:05 13:10 


概率 0.7 0.2 0.1 





表 10.2: 某 人 到 达 B 站 的 时 刻 及 概率 


人 到 站 时 刻 13:28 13:30 13:32 13:34 


概率 0.3 0.4 0.2 0.1 





解 : 记 了 为 火车 从 A 站 出 发 的 时 刻 ，7T2 为 火车 从 A 站 到 达 B 站 运行 的 时 
间 ，73 为 此 人 到 达 B 站 的 时 刻 . 因此 , 7, 72, 3 均 是 随机 变量 , 且 72 ~ N(30, 27)， 
7,7T3 的 分 布 律 由 表 10.3 和 表 10.4 所 示 . 
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表 10.3: 宛 的 分 布 律 
时 刻 /分 0 5 10 
概率 p 0.7 0.2 0.1 
其 中 记 13 时 为 时 刻 t= 0. 
表 10.4: ZT 的 分 布 律 
时 刻 员 / 分 28 30 32 34 
概率 p 0.3 0.4 0.2 0.1 
其 中 记 13 时 为 时 刻 t= 0. 


通过 分 析 可 知 ， 此 人 能 及 时 赶 上 火车 的 充分 必要 条 件 是 : 十 TD > T3. 由 
此 得 到 ， 此 人 赶 上 火车 的 概率 为 已 { 克 十 2 > 2 上 上 述 分 析 方 法 称 为 概率 分 析 . 

还 有 许 许多 多 的 概率 分 析 问 题 ， 提 到 概率 分 析 就 必须 提 到 Monte Carlo ( 蒙 
特 卡 洛 ) 方法 ， 因 为 Monte Carlo 方法 是 完成 概率 分 析 和 计算 机 模拟 的 重要 手 


段 . 


10.1.2 ”Monte Carlo 方法 


Monte Carlo 方法 ， 又 称 为 Monte Carlo 模拟 ， 或 统计 试验 方法 或 随机 模拟 
等 .所谓 模 拟 就 是 把 某 一 现实 的 或 抽象 的 系统 的 部 分 状态 或 特征 ， 用 男 一 个 系统 
( 称 为 模型 ) 来 代替 或 模仿 . 在 模型 上 作 实 验 称 为 模拟 实验 ， 所 构造 的 模型 为 模拟 
模型 . 

Monte Carlo 是 摩纳哥 国 的 世界 著名 赌 城 , 第 二 次 世界 大 战 期 间 ， Von Neu- 
man ( 汉 详 依 曼 ) 和 Ulam( 乌 拉 姆 ) 将 他 们 从 事 的 与 研制 原子 弹 有 关 的 秘密 工 


作 ， 以 赌 城 Monte Carlo 作为 秘密 代号 的 称呼 . 他 们 的 具体 工作 是 对 裂变 物质 的 
中 子 随机 扩散 进行 模拟 . 

Monte Carlo 方法 的 基本 思想 是 将 各 种 随机 事件 的 概率 特征 ( 概率 分 布 、 数 
学 期 望 ) 与 随机 事件 的 模拟 联系 起 来 ,用 试验 的 方法 确定 事件 的 相应 概率 与 数学 
期 望 . 因而 ， Monte Carlo 方法 的 突出 特点 是 概率 模型 的 解 是 由 试验 得 到 的 ， 而 
不 是 计算 出 来 的 . 

此 外 ,模拟 任何 一 个 实际 过 程 ， Monte Carlo 方法 都 需要 用 到 大 量 的 随机 
数 ， 计 算 量 很 大 ， 人 工 计算 是 不 可 能 的 ， 只 能 在 计算 机 上 实现 . 

我 们 可 用 Monte Carlo 方法 实现 在 第 一 章 介 绍 的 Buffon 掷 针 问题 . 
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例 10.2 (Buffon 掷 针 问题 ) 

在 概率 论 中 ， 著 名 的 Buffon 搓 针 问题 就 是 用 统计 试验 的 方法 求 圆 周 率 T 的 
典型 代表 . 现 用 模拟 的 方法 重 现 Buffon 搓 针 问题 . 

解 : 由 第 一 章 的 例 1.2 可 知 ， 针 与 平行 线 相 交 的 充分 必要 条 件 是 


X< rg 
2 


Buffon 的 投 针 试 验 在 计算 机 上 实现 ， 需 要 作 以 下 两 个 步 又 

(1) 产生 随机 数 . 首先 产生 nn 个 相互 独立 的 随机 变量 0,7z 的 抽样 序列 0;, zi 
i 二 1,2,…,n, 其 中 0; ~ U(0,7), zw U(0,5). 

(2) 模拟 试验 .检验 不 等 式 


1 
Xi < sin 做 (10.1) 


是 否 成 立 . 若 式 (10.1) 成 立 ， 表示 第 i 次 试验 成 功 ( 即 针 与 平行 线 相 交 ). 设 n 次 
试验 中 有 天 次 成 功 ， 则 7 的 估 值 为 
2n 


其 中 a > 1, 均 为 预先 给 定 . 
将 上 述 步骤 编写 成 R 模拟 程序 (程序 名 buffon.R) 
buffon<-function(n, 1=0.8, a=1)1{ 
k<-0 
theta<-runif(n, 0, pi); x<-runif(n, 0, a/2) 
for (i in 1:n){ 
if (x[i]<= 1/2*sin(thetal[i])) 
k<-k+1 
} 
2*1*n/ (kKk*a) 
} 
调用 已 编 好 的 R 程序 buffon.R,, 进行 模拟 ， 取 n = 100000, 1 = 0.8,a=1. 
> source("buffon.R'") 
> buffon(100000, 1=0.8, a=1) 
[1] 3.142986 
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Buffon 的 投 针 试 验 的 模拟 过 程 虽 然 简 单 ， 但 基本 反应 了 Monte Carlo 方法 
求解 实际 问题 的 基本 步 又 i 
程 . 

为 了 便于 理解 模型 改进 ， 这 里 用 概率 分 析 方 法 再 讨论 求 7 的 另 一 种 模拟 方 
法 . 

例 10.3 用 概率 分 析 方 法 进行 模拟 ， 计 算 圆周 率 x 的 估计 值 . 

解 : 考虑 服从 (0,1) 区 间 上 均匀 分 布 的 独立 的 随机 变量 X 与 Y, 因此 ， 二 维 

随机 变量 (X,Y》) 的 联合 概率 密度 为 
1, 0<7xXz<1, 0<vy<l1, 


f(x,y) = | ee 


E00 

考虑 边 长 为 1 的 正方 形 ， 以 一 个 角 (点 0) 为 圆心 ，1 为 半径 的 1/4 圆 弧 . 
然后 ， 在 正方 形 内 等 概率 地 产生 ”个 随机 点 (zi,9i), i 二 1,2,…,n, 即 x 和; 
是 (0,1) 上 均匀 分 布 的 随机 数 ， 如 图 10.1 所 示 . 设 nn 个 点 中 有 个 点 落 在 1/4 








图 10.1: 用 Monte Carlo 方法 求 5 的 估计 值 
圆 内 ， 即 有 天 个 点 (Zi Up) 满足 如 十 之 1. 则 当 n 一 co 有 如 下 关系 ， 


全 ”1/4 圆 面积 k i 
JE 


因此 ，7 的 佑 计 值 为 


下 面 编写 的 模拟 程序 (程序 名 MC1.R) 
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MC1 <- function(n)t{ 
k <- 0; x <- runif(n); y <- runif(n) 
for (i in 1:n)t 
if (x[i]“2+y[i]“2 < 1) 
k <- k+l1 


4*k/n 










其 中 其 使 用 方法 为 
间 若 a,5 值 省 缺 ， 则 产生 友人 (0; 了 区 间 
上 均匀 分 布 的 随机 数 . 调用 MC1 函数 ， 取 n = 100000, 得 到 
> source('"MC1.R"); MC1(100000) 
[1] 3.14268 
上 面 讨论 的 用 Monte Carlo 方法 求 7 的 方法 , 本 质 上 就 是 用 Monte Carlo 方 
法 求 定 积分 | VT 一 x3dz. 下 面 给 出 求 定 积分 的 一 般 方法 . 


例 10.4 用 Monte Carlo 方法 求 定 积分 
b 
=|/ g(x)dz. (10.3) 


解 : 图 10.2(a) 的 阴影 面积 表示 是 定 积分 (10.3) 的 值 ， 为 简化 问题 ， 将 函数 
限制 在 单位 正方 形 (0 < x < 1,0 <y < 1) 内 , 如 图 10.2(b) 所 示 .， 只 要 函数 g(x) 











O Q [a b O (b) 1 


图 10.2: 用 Monte Carlo 方法 求 定 积分 的 示意 图 
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在 区 间 [a, 内 有 界 ， 则 可 以 适当 选择 坐标 轴 的 比例 尺度 ,总 可 以 得 到 图 10.2(b) 
的 形式 . 
现在 只 考虑 图 10.2(b) 的 情况 ， 计 算 定 积 


r= 上 f(x)dz. (10.4) 


令 7,y 为 相互 独立 的 (0, 1) 区 间 上 均 久 随机 数 ,在 单位 正方 形 内 随机 的 投掷 nn 个 
点 (Ziyi), i = 1,2,…,n， 知 第 7 个 随机 点 (zj,y;) 落 于 曲线 f(x) 下 的 区 域内 
(图 10.2(b) 内 有 阴影 的 区 域 ), 表明 第 7 次 试验 成 功 ， 这 相应 于 满足 概率 模型 


y; < f(x;). (10.5) 
设 成 功 的 总 点 数 有 个 ， 总 的 试验 次 数 为 n, 则 由 强大 数 定律 ， 有 


. kk 
lim — = », 
no00N 


从 而 有 
~ kk 
了 = 一 
了 


显然 ,概率 p 即 为 图 10.2(b) 的 面积 4. 从 而 ， 随 机 点 落 在 区 域 4 的 概率 p 恰 是 


所 求 积分 的 估 值 地 

综 上 所 述 ， ee 

0) 构造 问题 的 概率 模型 

对 随机 性 质 的 问题 ， 如 中 子 碰撞 、 粒子 扩散 运动 等 ， 主 要 是 描述 和 模拟 运动 
的 概率 过 程 ， 建立 概率 模型 或 判别 式 ， 这 一 问题 ， 在 后 面 的 应 用 中 还 将 进一步 计 
论 ， 

对 确定 性 问题 ， 如 确定 7 什 ， 计 算 定 积分 ， 则 需 将 问题 转化 为 随机 性 问题, 
例如 图 10.2(a) 计算 连续 函数 9(7) 在 区 间 la 中 的 定 积分 ， 则 是 在 ct a) 的 有 
界 区 城内 产生 若干 随机 点 ， 并 计数 满足 不 等 式 y; < 9(zj) 的 点 数 ， 从 而 构成 了 问 
题 的 概率 模型 


Sp. (10.6) 


从 已 知 概率 分 布 抽样 ,实际 上 是 产生 已 知 分 布 的 随机 数 序列 ， 从 而 实现 对 随 
机 事件 的 模拟 . 例如 , 要 得 到 估 值 1 关键 在 于 产生 f(z) 的 抽样 序列 f(z1), f(z2)， 
…5 了 (zn), 即 产生 具有 密度 函数 为 f(z) 的 随机 序列 . 
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(3) 建立 所 需 的 统计 量 

对 求解 的 问题 ， 用 试验 的 随机 变量 kh/n 作为 问题 解 的 估 值 ， 硅 /1 的 期 望 
值 恰好 是 所 求 问题 的 解 ， 则 所 得 结果 为 无 偏 估计 ， 这 种 情况 在 Monte Carlo 方法 
中 用 得 最 多 . 除 无 偏 估计 外 ， 有 时 也 用 极 大 似 然 估计、 渐 近 倍 计 等 . 


10.1.3 Monte Carlo 方法 的 精度 分 析 

Monte Carlo 方法 是 以 随机 变量 抽样 的 统计 估 值 去 推断 概率 分 布 的 ， 抽 样 不 
是 总 体 , 这 里 就 有 一 个 误差 估计 的 重要 问题 。 Monte Carlo 方法 所 能 达到 的 精度 
与 其 应 用 范围 的 大 小 紧密 相关 . 我 们 希望 能 以 较 少 的 试验 次 数 ( 即 较 低 的 费用 ) 
得 到 较 高 的 精度 ， 下 面 讨论 这 一 问题 . 

设 有 随机 变量 XX, 其 抽样 值 为 zt, 7x2,…, 现 欲求 其 期 望 值 E(X), 可 以 有 两 种 
方法 . 

1. 随机 投 点 方法 

随机 投 点 方法 ( 见 例 10.3 和 例 10.4), 是 进行 n 次 试验 ， 当 n 充分 大 时 ， 以 
随机 变量 k/n 作为 期 望 值 E(X) 的 近似 估 值 ， 即 

E(X) 之 万 = Ek/n. 


是 n 次 试验 中 成 功 的 次 数 . 
若 一 次 投 点 试验 的 成 功 概率 为 p, 并 以 
= 人 表明 试验 成 功 ， 
” 0， 表明 试验 失败 ， 


其 中 


则 一 次 试验 成 功 的 均值 与 方差 为 
E(Xi) = 12 二 0 (1 一 人 臣 三 D 
Var(Xi) = Lp+0(1-p) -p=p(1—7). 
若 进 行 n 次 试验 ， 其 中 次 试验 成 功 ， 则 大 为 具有 参数 为 (n,p) 的 二 项 分 布 . 


此 时 ， 随 机 变量 的 估 值 为 
7= Ek/n. 
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显然 ， 随 机 变量 5 的 均值 和 方差 满足 


Ep) =B(E) = EA) =p, Varp) = ea 





因而 标准 差 5 = yp(1 一 p)/n. 当 p = 0.5 时 ， 标 准 差 达到 最 大 . 
现在 讨论 ， 当 试验 次 数 n 取 多 大 时 , 不 等 式 7 一 p| < = 的 概率 不 小 于 1 一 a， 
即 
P{l5—p|<e}=1—a. (10.7) 
这 就 是 说 , 等 式 (10.7) 的 置信 和 度 为 a, 其 精度 为 =. 例如 , 者 取 a = 0.05, = = 0.01， 
则 在 100 次 试验 中 ， 佑 值 互 与 真 值 pb 之 差 ， 大 约 有 95 次 不 超过 1% 的 误差 . 
由 中 心 极限 定理 可 知 , 当 一 co 时 ，(7 一 p)/3 渐 近 于 标准 正 态 分 布 N(0, 1)， 
因此 有 
P{ ES < Zn) 1- (10.8) 
其 中 Zojs 正 态 分 布 的 上 a/2 分 位 点 . 
比较 式 (10.7) 和 式 (10.8), 得 到 
= Zauj29 = Za2 V p(1 —p)/n, 
从 则 有 


p(1—p) 
E2 





n> a (10.9) 





例 10.3 是 用 随机 投 点 法 来 佑 计 圆周 率 7, 下 面 来 计算 它 需 要 多 少 次 试验 才能 
达到 精度 要 求 . 
例 10.5 ( 续 例 10.3) 考虑 置信 度 为 5%, 精度 要 求 为 0.01 的 情况 下 , 求 例 10.3 所 
需 的 试验 次 数 . 

解 : 由 题 意 知 a = 0.05, 因为 7/4 就 是 模拟 的 期 望 值 , 得 到 p = T/4 = 0.785， 
< = 0.01/4. 查 表 或 经 计算 (qnorm(1-0.05/2)) 得 到 Zu = 1.96, 因此 


_ [ppD) 2 | |0.785 x 0.215x1962 
E2 0%/2 (0.01/4)? 





| = 103739. 


其 中 || 表示 上 取 整 . 
因此 ， 作 100000 次 模拟 ,得 到 7 的 模拟 值 与 真实 值 有 95% 的 可 能 误差 在 
1% 以 内 . 
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表 10.5: 投 点 算法 的 试验 次 数 (a = 0.05) 
E = 0.05 e = 0.01 e = 0.005 e = 0.001 


140 3500 14000 350000 
250 6200 25000 620000 
330 8100 33000 810000 
370 9300 37000 930000 
390 9600 39000 960000 





按 公 式 (10.9), 可 得 到 不 同 精度 = 和 不 同 概率 p 情况 下 随机 投 点 方法 的 试验 
次 数 ， 如 表 10.5 所 示 . 

2. 平均 值 方法 

平均 值 方法 是 用 nn 次 试验 的 平均 值 


1 
甩 一 (21 十 2 十 … -十 Tn) = -1 


作为 X 的 期 望 值 E(X) 的 近似 佑 值 . 
设 有 7 个 独立 同 分 布 的 随机 变量 序列 x1, x2,…, zn, 每 个 随机 变量 的 均值 为 


人 方差 为 07, 则 
21 十 22 十 "十 Zn 一 7 


ovVn 
浙 近 地 服从 标准 正 态 分 布 ， 也 就 是 说 ， 当 n 一 co 时 ， 有 


Za2 
| < Zp} 一 元/ (-22/2) dz =1—a, 
或 者 





Z1 十 22 十 "十 2mr 一 7 


ovVn 








P{E- < Zap2Von) 一 1 一 Q. 
E 一 IaujaVa2/m 


从 而 有 
和 全 (10.10) 
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式 (10.10) 即 为 平均 值 方法 在 给 定 a 和 = 下 所 需 的 试验 次 数 . 
在 进行 计算 时 ， 通 常 并 不 知道 方差 0”, 一般 用 其 估计 值 代替 即 先 作 no 次 
试验 ， 得 到 方差 o 的 估计 值 


TS 
Ce 
和 


在 得 到 S? 后 ， 用 5S? 近似 式 (10.10) 中 的 o”, 则 平均 值 方法 的 试验 次 数 为 

n> Za /e (10.11) 
若 n > no, 需要 作 补 充 试验 . 
例 10.6 用 平均 值 法 估计 圆周 率 T, 并 考虑 置信 度 为 5%, 精度 要 求 为 0.01 的 情 
况 下 所 需 的 试验 次 数 . 


解 : 事实 上 , 计算 r/4, 本 质 上 就 是 用 概率 的 方法 计算 积分 有 VI 一 7zdz. 也 
就 是 说 ， 随 机 变量 X ~ U[0, 1], 令 9(X) = V1 一 X37, 其 期 望 值 为 


mex)= 人 “= | VI mdr = 
因此 ， 
了 = Elg(X)] > > V1 (10.12) 


其 中 x; 是 [0,1] 区 间 上 均匀 分 布 的 随机 数 . 
按 式 (10.12) 编写 R 程序 (程序 名 : ”MC1_2.R) 
MC1_2 <- function(n){ 





x <- runif(n) 
4*sum(sqrt (1-x°2))/n 
} 
作 10 万 次 模拟 ， 
> source("MC1_2.R"); MC1_2(100000) 
[1] 3.141816 
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下 面 估 计 所 需 的 试验 次 数 ， 由 式 (10.10) 可 知 ， 其 关键 是 求 方差 o*. 由 统计 
知识 得 到 


党 
E i = 0.04981641 
3 \4 


此 时 ，a = 0.05, Zz = 1.96, = = 0.01/4, 所 以 ， 


_ | 攻 : x 0.04981641 


70 | = 30620. 


E2 
可 见 ， 达 到 同样 精度 的 情况 下 ,用 平均 值 法 的 随机 试验 次 数 只 是 随机 投 点 法 
的 1/3. 从 这 个 例子 可 以 看 出 ， 平 均值 法 要 优 于 随机 投 点 法 . 
从 例 10.6 的 计算 过 程 ， 可 以 得 到 用 平均 值 法 计算 一 般 定 积分 的 方法 . 
如 要 计算 定 积分 /g(x)dz. 令 y= (7 一 a)/(0 一 a), 则 有 dy= dz/(b 一 a)， 


1= f gar= gle -oo = hay 
其 中 h(y) = (0 一 a)g(a + (0— a)y). 
车 YY~U(0,1), 则 
Bp = {ney = = 
所 以 ， 
= )- 2 b — a)g(a + (6b — a)y), 


其 中 yi 是 [0,1] 区 间 上 均匀 分 布 的 随机 数 . 
综 上 讨论 ， 可 归纳 如 下 ， 
(1) Monte Carlo 法 的 信人 本 度 。 与 内 多 的 平成 反 尼 即 
若 精 度 = 提高 10 倍 ， 则 试验 次 数 ”需要 增加 100 倍 ， 这 意味 着 解 题 的 
间 要 慢 100 倍 . 故 收敛 速度 慢 是 Monte Carlo 方法 的 主要 缺点 . 





(2) 式 (10.9) 和 式 (10.11) 表明 : 当 s 一 定时 ， 试 验 次 数 n 取决 于 方差 的 数 
值 ， 即 因而 降低 方差 是 加 速 Monte Carlo 方法 收敛 的 主要 途径 . 

(3) Monte Carlo 方法 的 精度 告 计 具有 概率 性 质 ， 它 并 不 能 断言 精度 一 定 小 
于 s, 而 只 是 表明 ， 计 算 精 度 以 接近 于 1 的 概率 不 超过 <. 
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10.2 ”随机 数 的 产生 


在 上 一 节 介 绍 的 Monte Carlo 方法 中 ， 需 要 用 到 随机 数 ， 在 这 一 节 介 绍 随机 

数 产 生 的 方 
第 一 类 是 利用 专门 的 随机 数 表 . 有 一 些 

已 制备 好 的 随机 数 表 可 供 使 用 , 原则 上 可 以 把 随机 数 表 输入 到 计算 机 中 储存 起 来 
以 备 使 用 , 但 由 于 计算 时 常常 需要 大 量 的 随机 数 而 计算 机 的 储存 量 有 限 ， 因 此 这 
种 方法 一 般 不 采用 . 第 二 类 是 用 物理 装置 即 随机 数 发 生 器 产生 随机 数 ,， 但 其 成 本 
太 高 . 第 三 类 是 用 专门 的 数学 方法 用 计算 机 计算 出 来 的 . 这 些 数 一 般 是 按 一 定 规 
律 递 推 计算 出 来 的 ， 因 此 它们 不 是 真正 的 随机 数 ( 称 为 伪 随 机 数 )， 所 得 的 数列 
经 过 一 定时 间 会 出 现 周期 性 的 重复 . 但 是 ， 如 果 计 算 方法 选 得 恰当 ， 它 们 是 可 以 
同 真正 的 随机 数 有 近似 的 随机 特征 . 它 的 最 大 优点 是 计算 速度 快 ， 占 用 内 存 小 ， 
并 可 用 计算 机 来 产生 和 检验 . 

下 面 我 们 介绍 几 种 常用 的 随机 数 产生 的 方法 . 


10.2.1 均匀 分 布 随机 数 的 产生 
1. 乘 同 余 法 
用 以 产生 (0, 1) 均匀 分 布 随机 数 的 递 推 公式 为 


Ti = Mri_i(mod MM) i = 1,2,.…, (10.13) 


式 中 入 是 乘 因子 ( 简称 乘 子 )， MM 是 模 数 ， 当 给 定 一 个 初始 值 zo 之后， 就 可 以 
利用 式 (10.13), 计算 出 序列 zl, x2,…, zh,…. 再 取 


7 一 


Ti 
77， (10.14) 
则 7; 就 是 均匀 分 布 的 第 i 个 随机 数 . 

由 于 zi 是 除数 为 M 的 被 除数 的 余数 ， 所 以 有 0 < xi < M, 则 0<r<1. 
因此 序列 {7;} 是 (0, 1) 区 间 上 均匀 分 布 . 由 式 (10.13) 和 式 (10.14) 可 以 看 出 ， 
每 一 个 x; 、7i 至 多 有 M 个 互 异 的 值 ， 因 此 x; 、7i; 是 有 周期 的 , 即 K<M. 
因此 {7i} 不 是 真正 的 随机 数列 但 是 ， 当 工 充分 大 ， 则 在 一 个 周期 内 的 数 可 能 
经 受 住 独 立 性 和 均匀 性 检验 ， 而 这 些 完 全 取决 于 参数 ro 、 入 、 MM 的 选择 . 一 
些 文献 推荐 下 列 参 数 ， 取 zo = 1 或 正 奇数 ，M = 2 ,入 = 551 其 中 心 9 都 
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是 正 整数 其 上 愈 大 ， 则 工 愈 大 ， 知 计算 机 位 数 为 w 一 般 取 大 < mw 4 是 满足 
5 < 2" 的 最 大 整数 . 


2. 混合 同 余 法 


混合 同 余 法 的 递 推 公式 为 
Xi = (Ai 十 cl(mod M), 1 = 1,2,.…, (10.15) 
六 1 (10.16) 


通过 适当 的 选取 参数 可 以 改善 伪 随 机 数 的 统计 性 质 . 例如 , 若 c 取 正 整数 ，M = 
2*, 入 = 4g 十 1, zo 取 任 意 非 负 整数 ， 可 产生 随机 性 好 ， 且 有 最 大 周期 L 一 2* 的 
序列 {7i}. 

10.2.2 ”均匀 随机 数 的 检验 


由 于 算法 产生 的 随机 数 是 伪 随 机 数 , 因此 需要 对 产生 的 伪 随 机 数 进行 统计 检 
验 ， 下 面 介 绍 两 种 常用 的 检验 方法 . 

1. 参数 检验 

知 总 体 X 服从 (0,1) 区 间 上 的 均匀 分 布 ， 则 
， Var(X) = E(X’)— 区 (X)] = 五 


2 4 


BX) = 3 Vor 2 = 


车 71,72,… ,Tn 是 nn 个 来 自 总 体 关 的 独立 的 观测 值 ， 令 
I 二 
下 二 二 , 2 2 
则 它们 的 均值 和 方差 分 别 为 
i | ER i 
Dd 大) 二 一 -一 2 一 一 2 一 ”一 一 一 
E(7)= Var (7) Tom’ 也 Gr ) 了， Var G ) 7 


由 中 心 极限 定理 ， 当 n 较 大 时 统计 量 





断 ; 演 ee mx (7 -3), (10.17) 
Wn 
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渐 近 地 服从 标准 正 态 分 布 N(0,1). 当 给 定 显著 性 水 平 a 后 ， 即 可 根据 正 态 分 布 
表 确 定 的 临界 值 ， 判 断 7 与 的 均值 E(X) 各 与 X? 的 均值 E(X?) 的 差异 
是 否 显 著 ， 从 而 决定 能 否 把 ,72,…, 7 看 成 来 自 总 体 为 区 间 (0,1) 上 均匀 分 布 
的 随机 数 X 的 n 个 独立 的 取 值 ， 检 验 时 ， 一 般 可 取 显 著 性 水 平 a = 0.05, 此 时 
临界 值 为 1.96, 即 当 lui| > 1.96 时 ， 认 为 有 显著 差异 

2. 均匀 性 检验 

随机 数 的 均匀 性 检验 又 称 频率 检验 , 它 用 来 检验 经 验 频率 和 理论 频率 是 否 有 
显著 性 差异 . 

把 区 间 0, 1) 分 成 等 分 以 |, 完 ) (= 工 2…, 间 表示 第 了 个 子 区 
间 ， 如 7。 是 0,1) 上 均匀 分 布 的 随机 数 X 的 一 个 取 值 ， 则 它 落 在 每 个 子 区 间 的 
概率 均 应 等 于 这 些 子 区 间 的 长 度 二, 故 n 个 点 中 落 在 第 i 个 子 区 间 上 的 平均 数 
为 mi = npi = 元, 设 实际 上 7172,…,r7n 中 属于 第 i 个 子 区 间 的 数目 为 n, 则 统 
计量 














k 
> (nm 0 昌 3 @ 本 < (10.19) 
4 i=1 


渐 近 地 服从 自由 度 为 一 1 的 Xx? 分 布 . 据 此 进行 显著 性 检验 ， 通常 取 显 著 性 
水 平 a = 0.05, 由 自由 度 为 一 1 的 x 分 布 表 查 出 临界 值 Xt os(% 一 1)， 如 果 
xX > Xjos(k 一 1), 则 拒绝 均匀 性 假设 . 

3. 独立 性 检验 

独立 性 检验 主要 检验 随机 数 71,72,…, 7 中 前 后 的 统计 相关 性 是 否 显 著 . 我 
们 知道 ， 两 个 随机 变量 的 相关 系数 反映 了 它们 之 间 的 线性 相关 程度 . 者 两 个 随机 
变量 相互 独立 ， 则 它们 的 相关 系数 必 为 0( 反 之 不 一 定 )， 因 此， 可 用 相关 系数 来 
检验 随机 变量 的 独立 性 . 

给 定 随 机 数 71,72,……,7n, 计算 前 后 相距 为 的 样本 的 相关 系数 


n—k 
1 _\2 2 
pk = (去 一 大 riritk — (7) )/s ， = 1,2,.…， (10.20) 
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对 知 干 个 不 同 的 大 值 做 检验 ， 提 出 原 假设 Hor : px = 0. 者 假设 成 立 ， 则 
当 n 一 上 充分 大 时 ， 统 计量 px 渐 近 于 标准 正 态 分 布 N(0, 1). 在 给 定 显著 性 水 平 
下 ， 者 拒绝 原 假设 ， 则 可 认为 71,72,…, rn 有 一 定 的 线性 相关 性 ， 则 它们 不 是 相 
互 独立 的 . 

随机 数 的 统计 检验 除 上 述 三 种 检验 外 ,还 有 其 它 的 检验 方法 , 还 可 以 用 到 前 
面 章 节 讲 过 的 参数 或 非 参数 检验 方法 ， 这 里 就 不 一 一 介绍 了 . 





10.2.3 ”任意 分 布 随机 数 的 产生 


1. 离散 型 随机 变量 的 情形 
设 随机 变量 X 具有 分 布 律 PIX = zi} = phi = 42 令 m 一 0 
-Dm i 二 1,2,…, 将 {p} 作为 区 间 (0,1) 上 的 分 位 点 . 设 7 是 区 间 (0, 1) 

上 均 角 分 布 的 随机 变量 ， 当 且 仅 当 p(n? <r 和 p9 时 , 令 久 = zi, 则 











具体 的 执行 过 程 是 ， 每 产生 (0, 1) 区 间 上 的 一 个 随机 数 7, 若 p4 0 <7 和 DO, 则 


例 10.7 产生 具有 分 布 律 





的 离散 型 随机 变量 X 的 随机 数 . 
解 : 设 71,72,…,7n 是 (0,1) 上 均匀 分 布 的 随机 数 ， 令 
， 和 


Ti= 4 1, 0.3<7;< 0.6, 


OO 


2, 0.6<ni<l, 


则 VX1, X22, ** ,Tn 是 具有 X 的 分 布 律 的 随机 数 . 
例 10.8 产生 Possion 分 布 的 随机 数 
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解 : Possion 分 布 是 离散 型 分 布 ， Possion 分 布 的 分 布 律 为 


Me 





P{X=h} = k=0,1,2,..., (10.21) 
因此 ， 由 (0,1) 区 间 上 均匀 分 布 产生 的 随机 数 7, 并 给 出 参数 和 值 之 后 ， 可 由 
ee k—1 MX 国 k i 
e De be k= 0,1,2,..., (10.22) 
j=0 j=0 


确定 出 大 值 ， 并 令 X=, 则 X 为 具有 Possion 分 布 (10.21) 的 随机 数 . 

2. 连续 型 随机 变量 的 情形 

一 般 地 讲 ， 对 具有 给 定 分 布 的 连续 型 随机 变量 X, 均 可 利用 (0,1) 区 间 上 均 
匀 分 布 的 随机 数 来 产生 分 布 的 随机 数 ， 其 中 最 常用 的 方法 是 反 函 数 法 . 

设 连 续 型 随机 变量 X 的 概率 密度 函数 为 f(z), 令 


ri 


则 7 为 (0,1) 区 间 上 均匀 分 布 的 随机 变量 . 当 给 出 了 (0,1) 区 间 上 的 均匀 随机 数 
71)72) 时 ， 可 根据 方程 


te J (10.23) 


解 出 Zu 7X2,… 此 时 zu x2,… 可 作为 随机 变量 X 的 随机 数 . 
例 10.9 产生 参数 为 入 的 指数 分 布 的 随机 数 . 
解 : 由 于 指数 分 布 的 概率 密度 为 f(z) = Xe Y(x > 0), 由 公式 (10.4) 得 到 


=| Me Ndt=1—e™, 1=1,2,... 
0 


Ed 


即 
和 二 一 人 世代 一 9 i= 1,2,.… 


a 


由 于 1 一 7i 与 m 具有 相同 的 分 布 ， 故 上 式 可 简化 为 





1 
大 一 一 人 也 人 1 一 1)2,.…. (10.24) 


有 反 函 数 方法 是 一 种 普通 的 方法 ， 但 是 当 反 函数 难以 求 得 时 ， 此 方法 不 宜 使 
用 . 
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10.2.4 正 态 分 布 随机 数 的 产生 
这 里 介绍 两 种 产生 正 态 分 布 随机 数 的 方法 . 
1. 极限 近似 法 
设 rura……,mm 是 (0,1) 区 间 上 7 个 独立 的 均匀 分 布 的 随机 数 ， 由 中 心 极 限 
定理 得 到 ， 
> 7i 一 /2 
_ i=l 
a (10.25) 
近似 地 服从 正 态 分 布 N(0,1). 为 了 保证 一 定 的 精度 ， 式 (10.25) 中 的 n 应 取得 足 
够 大 ,一般 大 约 取 n = 10 左右 ， 为 方便 起 见 ， 可 取 n= 12. 此 时 ， (10.25) 有 最 
简单 的 形式 


12 


i=1 
当 7; 是 (0,1) 上 的 随机 数 ， 则 1 一 7; 也 是 (0,1) 上 的 随机 数 ， 因 此 式 (10.26) 
可 改写 为 


12 
2 一 >》 ri 一 Tj. (10.27) 
i=1 i=7 
者 随机 数 x 服从 N(0,1) 时 ， 令 
y=0o7+h, (10.28) 
则 y 是 正 态 Nu c”) 的 随机 数 . 由 此 可 以 得 到 任意 参数 1,o? 的 正 态 分 布 的 随机 
数 ， 
2. 坐标 变换 法 
可 以 证 明 ， 有 如 下 关系 ， 当 mra 是 两 个 相互 独立 的 〈0, 1) 区 间 上 均匀 分 布 
的 随机 数 时 ， 作 变换 
ZX1 = V—2lnricos(27r2), 7z2 = V—21lnrisin(2r7,). (10.29) 


则 z1, zz 是 两 个 独立 的 标准 正 态 分 布 N(0, 1) 的 随机 数 . 再 由 式 (10.28), 可 以 得 
到 任意 参数 的 正 态 分 布 N(y,o”) 的 两 个 独立 的 随机 数 . 
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10.2.5 ”用 R 软件 生成 随机 数 

前 面 讲 了 各 种 产生 随机 数 的 方法 ,实际 上 ， 有 很 多 软件 可 以 自动 生成 各 种 分 
布 的 随机 数 . 现 以 R 软件 为 例 ， 介 绍 用 计算 机 软件 生成 随机 数 的 方法 . 

在 R 软件 中 列 出 了 各 种 分 布 ( 见 第 3 章 的 表 3.1), 在 这 些 分 布 的 函数 前 加 T， 
则 表示 是 生成 该 分 布 的 随机 数 . 如 

(1) runif 一 产生 均匀 分 布 的 随机 数 ， 参 数 为 n,a,b, 其 中 n 为 随机 数 的 个 
数 ， a,b 为 区 间 (a,05) 端点 值 ， 当 wp 省 缺 时 ， 为 (0,1) 区 间 上 的 随机 数 . 

(2) rnorm 一 产生 正 态 分 布 的 随机 数 ， 参 数 为 n, 4,o, 其 中 n 为 随机 数 的 个 
数 ， 为 均值 ，o 为 标准 差 ， 当 1,o 省 缺 时 ， 为 标准 正 态 分 布 N(0,1) 的 随机 
数 . 

(3) rpois 一 产生 Poisson 分 布 的 随机 数 ， 参 数 为 n, 和, 其 中 n 为 随机 数 的 个 
数 ， 入 为 Poisson 分 布 的 参数 . 

R 软件 还 可 以 产生 其 他 分 布 的 随机 数 ， 这 里 就 不 一 一 列举 了 . 

















10.3 ”系统 模拟 


系统 模拟 是 研究 系统 的 重要 方法 . 对 于 一 个 结构 复杂 的 系统 ， 要 建立 一 个 数 
学 模型 来 描述 它 是 非常 困难 的 ， 甚 至 是 做 不 到 的 . 即使 能 构造 出 数学 模型 ， 但 由 
于 结构 复杂 ， 采 用 解析 的 方法 得 到 模型 的 解 也 并 非 易 事 ， 或 者 根本 得 不 到 解析 
解 . 有 些 系统 ， 虽 然 结构 并 不 复杂 ， 但 其 内 部 机 理 有 不 明确 的 “黑箱 ”系统 ， 因 
此 无 法 采用 解析 的 方法 来 分 析 问 题 . 对 于 这 类 的 系统 ， 采 用 模拟 的 方法 不 失 为 一 
种 求解 的 好 方法 . 


10.3.1 ”连续 系统 模拟 


状态 随 着 时 间 连 续 变 化 的 系统 ， 称 为 连续 系统 . 我们 知道 ， 电 子 计算 机 的 工 
作 状 态 是 离散 化 和 数字 化 的 . 因此 ， 对 连续 系统 的 计算 机 模拟 只 能 是 近似 的 ， 获 
得 的 是 系统 状态 在 一 些 离散 抽样 点 上 的 数值 . 不 过 ， 只 要 这 种 近似 达到 一 定 的 精 
度 ， 也 就 可 以 满足 要 求 了 . 

连续 系统 模拟 的 一 般 方 法 是 首先 建立 系统 的 连续 模型 , 然后 转化 为 离散 模型 
并 对 该 模型 进行 模拟 ， 现 举例 说 明 . 


10.3 系统 模拟 579 


例 10.10 (追逐 问题 ) 在 正方 形 4BOD 的 四 个 顶点 各 有 一 人 ， 在 某 一 时 刻 ， 四 人 
同时 出 发 以 匀速 v 走向 顺 时 针 方 向 的 下 一 个 人 . 如 果 他 们 的 方向 始终 保持 对 准 目 
标 ， 则 最 终 将 按 螺 旋 状 曲线 汇合 于 中 心 点 O. 试 求 出 这 种 情况 下 每 个 人 的 轨迹 . 

解 : 这 一 问题 的 模拟 方法 是 ， 建 立 平面 直角 坐标 系 ， 以 时 间 间 隔 At 进行 采 
样 ， 在 每 一 时 刻 t 计算 每 个 人 在 下 一 时 刻 t+ 十 At 时 的 坐标 . 不妨 设 甲 的 追逐 对 
象 是 乙 ， 在 时 间 t, 甲 的 坐标 为 (zt 轨 ), 乙 的 坐标 为 (zz, ya), 那么 甲 在 上 + At 时 
的 坐标 为 (zl 十 vAtcos0,vi 十 vAtsin9), 其 中 


二 sb 一 一 qd 三 V(za 一 21)2 十 (oo — Y1). 


选取 足够 小 的 At 模拟 到 甲 、 乙 的 距离 小 于 vAt 为 止 . 

以 下 是 模拟 的 R 程序 (程序 名 : trace.R), ABCD 的 四 个 顶点 的 初始 位 置 
为 A(0,1), B(1,1), C(1,0), D(0,0). 

#### 画 出 A, B, C, D 和 0 〇 五 点 的 位 置 ， 再 作 标 记 

plot(c(0,1,1,0), c(0,0,1,1), xlab =" ", ylab = " ") 

text(0, 1, labels="A", adj=c( 0.3, 1.3)) 

text(1, 1, labels="B", adj=c( 1.5, 0.5)) 

text(1, 0, labels="C", adj=c( 0.3, -0.8)) 

text(0, 0, labels="D", adj=c(-0.5, 0.1)) 

points(0.5,0.5); text(0.5,0.5,1labels="0",adj=c(-1.0,0.3)) 

#### 将 计算 出 的 各 点 位 置 存 入 矩阵 X，Y 中 ， 

#### 又 是 ABCD 四 点 的 z 值 ，Y 是 ABCD 四 点 的 y 值 

delta_t<-0.01; n=110 


x<-matrix(0, nrow=5, ncol=n); x[,1]<-c(0,1,1,0,0) 


cos 0 = 



































y<-matrix(0, nrow=5, ncol=n); yl[,1]<-c(1,1,0,0,1) 
d<-c(0,0,0,0) 
for (j in 1:(n-1)){ 
for (i in 1:4){ 
d[i]<-sqrt((x[i+1, j]-x[i,j]) 2+(y[i+1, jj]-y[i,j])°2) 
x[i,j+1]<-x[i,jj+delta_t*(x[i+1,j]-x[i,j])/d[i] 
y[i,j+1]<-y[i,jj+delta_t*(y[i+1,j]-y[i,j])/d[i] 
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x[5,j+1]<-x[1, j+1]; y[5, j+1]<-y[1i, j+1] 
} 
#### 画 出 相应 的 曲线 
for (i in 1:4) lines(x[i,], yl[i,]) 
连接 四 个 人 在 各 时 刻 的 位 置 ， 就 得 到 所 求 的 轨迹 ， 其 图 形 如 图 10.3 所 示 . 
































图 10.3: 追逐 问题 


连续 系统 的 描述 常常 用 到 常 微分 方程 或 微分 方程 组 , 而 求解 方法 则 需要 用 求 
解 微分 方程 的 数值 方法 ， 如 Runge-Kutta 法 等 ， 有 关连 续 系统 的 模拟 的 进一步 
讨论 ， 大 家 可 以 参见 有 关 书 籍 ， 这 里 就 不 论述 了 . 
10.3.2 ”离散 系统 模拟 
离散 系统 是 指 系统 状态 只 在 有 限 的 时 间 点 , 或 无 限 但 可 数 的 时 间 点 上 发 生变 
化 的 系统 .假设 离散 系统 状态 的 变化 是 在 一 个 时 间 点 上 瞬间 完成 的 . 
例 10.11 用 模拟 的 方法 求解 例 10.1. 
解 : 设 
TI 一 火车 从 A 站 出 发 的 时 刻 ; 
TD 一 火车 从 A 站 到 B 站 的 运行 时 间 ，; 
1 一 某 人 到 达 B 站 的 时 刻 . 
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该 人 能 赶 上 火车 的 充分 必要 条 件 是 厂 十 好 > 3. 
假设 耳 , ,TD 均 是 随机 变量 , 且 72 ~ N(30,22), 也 ,人 T3 的 分 布 律 由 表 10.3 
和 表 10.4 所 示 . 
设 mra 是 (0,1) 区 间 上 均匀 分 布 的 随机 数 ， 则 了 和 7T3 的 分 布 律 的 模拟 公 
式 为 
28,， 0 <7 < 0.3， 
30，0.3 <72 < 0.7， 


1 
ty = D， 0.7 < 71 < 0.9, ts 一 
Te 


有 
34， 0.9 < 7r2 <1. 
则 右 和 ts 可 以 看 成 卫 ,T3 的 一 个 观察 值 . 
令 tb 是 服从 正 态 分 布 W(30,22) 的 随机 数 ， 则 将 ts 看 成 火车 运行 时 间 丈 的 
一 个 观察 值 . 
在 每 次 试验 中 ， 产 生 两 个 0(0,1) 的 随机 数 ,ts, 一 个 N(30,2?) sd 


五 十 刀 > ts3, 认为 试验 成 功 | 若 在 i [3] 


以 下 是 求解 过 程 的 及 程序 (程序 名 : ”MC2.R). 
MC2<-function(n){ 





ri<-runif (n); r2<-runif(n); t2<-rnorm(n,30,2) 一 一 
ti<-array(0,dim=c(1,n)); t3<-t1; 
for(i in 1:n){ 
”证 (r1[i]<-0.7){ 
t1[i]<-0 
}else if (ri[i]<=0.9)1{ 
ti1[i]<-5 
}else 
ti[i]<-10 
} 
for(i in 1:n){ 
证 (r2[i]<=0.3){ 
t3[i]<-28 
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}else if (r2[i]<=0.7)t 
t3[i]<-30 
}else if (r2[i]<=0.9)1{ 
t3[i]<-32 
}else 
t3[i]<-34 
} 
k<-0 
for(i in 1:n) 
if (tl1[i]+t2[i]>t3[i]) k<-k+1 
k/n 

} 

作 一 万 次 试验 ， 得 到 

> source('"MC2.R"); MC2(10000) 

[1] 0.6306 
此 人 赶 上 火车 的 概率 大 约 是 0.63. 

例 10.12 核反应 堆 屏 项 层 设计 问题 . 

解 : 核反应 堆 屏 蔽 层 是 用 一 定 厚度 的 铅 (Pb), 把 反应 堆 四 周 包围 起 来 ， 用 以 
阻挡 或 减弱 反应 堆 发 出 的 各 种 射线 . 在 各 种 射线 中 , 中 子 对 人 体 伤害 极 大 , 因此 ， 
屏蔽 设计 ， 主 要 是 了 解 中 子 穿 透 屏蔽 的 百分比 (或 概率 ), 这 对 反应 堆 的 安全 运行 
是 至 关 重 要 的 . 首先 考虑 一 个 中 子 进入 屏蔽 层 后 运动 的 物理 过 程 : 假定 屏蔽 层 是 
理想 的 均匀 平板 ， 中 子 以 初速 vo 和 方向 角 a 射 入 屏蔽 层 内 ( 见 图 10.4), 运动 一 
段 距离 后 ， 在 zo 处 与 铅 核 碰撞 之 后 ， 中 子 获得 新 的 速度 及 方向 (v1, 01), 再 运动 
一 段 距 离 后 ， 与 铅 核 第 二 次 碰撞 ， 并 获得 新 的 状态 (v2, 02) 等 等 ， 经 若干 次 碰撞 
后 ， 发 生 以 下 情况 之 一 而 终止 运动 过 程 

(1) 弹 回 反应 堆 ， (2) 穿 透 屏蔽 层 ，(3) 第 ;次 碰撞 后 ， 中 子 被 屏蔽 层 吸收 ， 

下 面 对 问 题 做 佑 干 简 化 与 假设 ; 

(1) 假定 屏蔽 层 平行 板 的 厚度 为 D = 3d, 其 中 d 为 两 次 碰撞 之 间 中 子 的 平均 
游 动 距离 ， 每 次 碰撞 后 中 子 因 损 失 一 部 分 能 量 而 速度 下 降 ， 假 设 在 第 10 次 碰撞 
后 ， 中 子 速度 下 降 到 某 一 很 小 的 数值 而 终止 运动 (被 吸收 ). 由 于 对 穿 透 屏蔽 层 的 
中 子 感 兴趣 ， 故 用 (zz, 9;) 描述 第 i 次 碰撞 后 中 子 的 运动 状态 ， 其 中 zx; 为 中 子 在 
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Vo 


中 子 
a 一 中 子 入 射 角 ， D 一 屏蔽 层 厚 度 
0， 一 中 子 第 一 次 碰撞 弹射 角 

图 10.4: 中 了 穿 入 屏蔽 层 的 运动 








jp 一 


2 轴 上 的 位 置 ， 0; 中 子 运动 的 方向 与 x 轴 的 夹 角 . 

(2) 假定 中 子 在 屏蔽 层 内 相继 两 次 碰撞 之 间 游 动 的 距离 服从 指数 分 布 ， 中 子 
经 碰撞 后 的 弹射 角 服从 (0, 27) 上 的 均匀 分 布 ， 从 而 得 到 第 i 次 碰撞 后 中 子 在 屏 
菩 层 的 位 置 





Ti= Ti1+ Ricos0;, 1i1=1,2,...,10. (10.30) 


其 中 9; 是 中 子 第 i 次 碰撞 后 的 弹射 角度 ， Ri 是 中 子 从 第 i 一 1 次 磁 撞 到 第 i 次 
碰撞 时 所 游 动 的 距离 。 由 假设 可 能 得 到 ， 


R; = d.:(—lnr;), 0; = 2mui, i= 1,2,..….,10. 


其 中 d 为 两 次 碰撞 之 间 中 子 的 平均 游 动 距离 ， mi ui 是 (0,1) 区 间 上 均匀 分 布 的 
随机 数 ， 式 (10.30) 表明 了 中 子 在 屏蔽 层 内 运动 的 概率 模型， 可 见 中 子 运动 的 位 
置 和 方向 都 是 随机 的 . 

(3) 在 第 i 次 碰撞 后 ， 中 子 的 位 置 z; 有 三 种 情况 发 生 

i) zi < 0, 中 子 返回 反应 堆 ; 

i) zi > D, 中 子 穿 出 屏蔽 层 ; 
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ji) 0 < zxi < D, 车 i < 10, 则 中 子 在 屏蔽 层 内 继续 运动 ; 若 ; = 10, 则 中 子 被 
屏蔽 层 吸 收 . 
中 子 运 动 的 三 种 模式 如 图 10.5 所 示 . ”为 简化 问题 ,假定 中 子 入 射 角 a = 0( 即 中 


返回 


吸收 


图 10.5: 中 子 在 屏蔽 层 内 运动 的 三 种 模式 











子 以 牌 直方 向 穿 入 屏蔽 层 ), 屏蔽 层 的 厚度 为 D = 3d. 
下 面 是 用 R 软件 编写 的 模拟 程序 (程序 名 :MC3.R). 
MC3<-function(Cn)T 
D<-3; pi<-3.1416; back<-0; absorb<-0; pierce<-0 
for (k in 1:n){ 
X<- -log(runif(1)) 
for (i in 1:10){ 
index <- 1 
r <- runif(2); R <- -log(r[1]); t <- 2*pix*r[2] 
x <-x+R* cos(t) 
if (x<0) { 
back<-back+1; index<-0; break 
}else if (x>D){ 
pierce<-piercet+1; index<-0; break 
}else 


next 
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if (index==1) 
absorb<-absorb+1 
二 
data.frame(Pierce=pierce/n*100, Absorb=absorb/n*100, 
Back=back/n*100) 
} 


表 10.6 列 出 的 是 上 述 程序 计算 的 结果 . 
ee 


中 子 数 (个 返回 (% 


100 54.0 
1000 55.4 
3000 56.4 
5000 57.0 





表 10.6 表明 ， 取 屏蔽 层 厚度 D = 3d 是 不 合适 的 ， 因 为 此 时 中 子 穿 透 屏蔽 层 
的 百分比 在 1/3 左右 . 而 在 实际 应 用 中 ， 要 求 中 子 穿 透 屏蔽 层 的 概率 极 小 ， 一 般 
数量 级 为 10 ~ 10-", 即 穿 入 屏蔽 层 的 中 子 若 为 几 百 万 个 ， 也 只 能 有 几 个 中 
子 穿 过 屏蔽 层 . 问题 是 多 厚 的 屏蔽 层 才 能 使 它 被 穿 透 的 概率 Wp < 10 ?7? 

值得 注意 的 是 ， 仅 模拟 5000 个 中 子 的 运动 ， 就 用 其 穿 透 屏 蔽 层 的 频率 来 估 
计 穿 透 屏蔽 层 的 概率 总 在 “勉强 ”之 嫌 ,， 因 为 这 时 的 模拟 精度 只 有 1%, 欲 提 高 模 
拟 精 度 ， 应 适当 增加 模拟 次 数 . 第 二 个 问题 是 ， 需 要 模拟 多 少 个 中 子 的 运动 ， 才 
能 用 频率 估计 其 概率 ? 

先 回答 第 二 个 问题 . 由 10.1 节 关 于 模拟 精度 与 模拟 次 数 的 讨论 , 由 式 (10.9) 
可 以 得 到 ， 若 使 模拟 精度 达到 千 分 之 一 ， 则 模拟 次 数 要 在 105 次 以 上 . 由 于 中 子 
穿 透 概率 在 10 5 以下， 所 以 其 精度 至 少 应 达到 这 个 数量 级 ， 那 么 模拟 次 数 就 应 
在 102” 次 以 上 ， 这 一 要 求 在 通常 的 情况 下 ， 显 然 是 行 不 通 的 . 

我 们 采用 如 下 的 解决 办 法 . 将 均匀 平行 板 分 为 厚度 相同 的 m 层 ， 只 取 一 
作 模 拟 ， 设 中 子 在 这 一 Be 
(1 一 W), 因而 穿 透 m 层 的 概率 是 (1 一 W)”. 由 于 中 子 穿 过 一 层 的 平均 速度 有 所 
下 降 ， 因 而 总 穿 透 概率 比 (1 一 W)” 要 小 . 
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用 Monte Carlo 方法 ， 先 模拟 10000 个 中 子 的 运动 时 ， 可 以 保证 (1 一 W) 的 
精度 要 小 于 1%. 经 m 层 后 ， 有 (1 一 W)" < (0.01)m, 若 取 m = 3, 就 可 获得 穿 透 
概率 (1 一 环 ) < (0.01)” = 10 4. 这 样 处 理 后 ， 不 必 作 高 达 102” 的 实验 ， 只 需 作 
10“ 次 试验 就 可 达到 10 的 精度 ， 这 一 改进 比 直 接 方 法 大 大 加 快 了 收敛 速度 ， 
减少 了 模拟 时 间 . 

利用 R 程序 (MC3.R), 作 10000 次 模拟 ,得 到 ， 当 D = 3d 时 ， 穿 透 概率 为 
Waa < 1/3, 问题 是 多 厚 的 屏蔽 层 才 能 使 Wp < 0.01? 

设 需要 的 屏蔽 厚度 为 x, 则 (Waa)* < 0.01, 或 3* > 100, 即 

gl00 2 -_ 
lg3 ”0.47712 





4.1918. 


即 屏蔽 层 的 厚度 在 达到 4.1918D 3 13d, 才能 使 中 子 宇 透 概率 不 大 于 0.01. 
这 时 可 以 回答 第 一 个 问题 了 ， 若 使 Wp < 10™, 则 总 厚度 为 


TD = 3x = 39d. 











也 就 是 说 ， 屏 珊 层 总 厚度 为 39d 时 ， 可 使 中 子 穿 透 屏蔽 层 的 概率 Wp < 10™. 


10.4 ”模拟 方法 在 排队 论 中 的 应 用 


排队 论 (Queueing Theory) 又 称 随机 服务 系统 ， 是 通过 研究 各 种 服务 系统 等 
待 现象 中 的 概率 特征 ， 从 而 解决 服务 系统 最 优 设计 与 最 优 控制 的 一 种 理论 . 

排队 论 属于 随机 过 程 的 一 部 分 , 这 里 以 排队 模型 为 例子 来 说 明 此 类 问题 的 随 
机 模拟 方法 ， 在 介绍 模型 方法 之 前 ， 先 简单 介绍 排队 论 的 基本 概念 


10.4.1 ”排队 服务 系统 的 基本 概念 


1. 排队 的 例子 
例 10.13 某 维 修 中 心 在 周末 只 安排 一 名 员工 为 顾客 提供 服务 ， 新 来 维修 的 顾客 
到 达 后 ， 若 已 有 顾客 正在 接受 服务 ， 则 需要 排队 等 待 . 车 排队 的 人 数 过 多 ， 势 必 
会 造成 顾客 抱 忽 ,会 影响 到 公司 产品 的 销售 ， 若 维修 人 员 多 ,会 增加 维修 中 心 的 
支出 ， 如 何 调整 两 者 的 关系 ， 使 得 系统 达到 最 优 . 
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例 10.13 是 一 个 典型 的 排队 的 例子 ， 关 于 排队 的 例子 有 很 多 ， 例 如 : 上 下 班 
坐 公交 和 车， 等待 公交 车 的 排队 ; 顾客 到 商店 购物 形成 的 排队 ; 病人 到 医院 看 病 形 
成 的 排队 ;人们 到 售票 处 购 票 形成 的 排队 等 ， 男 一 种 排队 是 物 的 排队 ,例如 文件 
等 竺 打印 或 发 送 ， 路 口红 灯 下 面 的 汽车 、 自 行车 通过 十 字 路 口 . 

排队 现象 是 由 两 个 方面 构成 ， 一 方 要 求 得 到 服务 ， 另 一 方 设法 给 予 服务 . 我 
们 把 要 求 得 到 服务 的 人 或 物 (设备 ) 统称 为 顾客 、 给 予 服务 的 服务 人 员 或 服务 机 
构 统称 为 服务 员 或 服务 台 . 顾客 与 服务 台 就 构成 一 个 排队 系统 . 或 称 为 随机 服务 
系统 ， 显然， 缺少 顾客 或 服务 台 任何 一 方 都 不 会 形成 排队 系统 . 

对 于 任何 一 个 排队 服务 系统 , 每 一 名 顾客 通过 排队 服务 系统 总 要 经 过 如 下 过 
程 : 顾客 到 达 、 排 队 等 待 、 接 受 服务 和 离 去 ， 其 过 程 如 图 10.6 所 示 . 


服务 系统 








顾客 总 体 





图 10.6: 服务 系统 的 描述 


2. 排队 服务 系统 的 基本 概念 

(1) 输入 过 程 

输入 过 程 是 描述 顾客 来 源 及 顾客 是 按 怎 样 的 规律 抵达 排队 系统 .。 a) 顾客 源 
总 体 : 顾客 的 来 源 可 能 是 有 限 的 ， 也 可 能 是 无 限 的 ， 例 如 工厂 内 发 生 故 障 待 修 的 
机 器 是 有 限 的 ;到 达 窗 口 购 票 的 顾客 总 体 可 以 看 成 是 无 限 的 . b) 到 达 的 类 型 ， 
顾客 是 单个 到 达 ， 或 是 成 批 到 达 , 例如 工厂 内 发 生 故 障 待 修 的 机 器 是 单个 到 达 ; 
在 库存 问题 中 ， 进 货 看 成 顾客 到 达 、 就 是 成 批 到 达 的 例子 . c) 相继 顾客 到 达 的 
间隔 时 间 : 通常 假定 是 相互 独立 、 同 分 布 的 ， 有 的 是 等 距 间隔 时 间 ， 有 的 是 服从 
Poisson 分 布 ， 有 的 是 服从 大 阶 Erlang 分 布 . 

(2) 排队 规则 

排队 规则 是 指 服务 允许 不 允许 排队 ， 顾 客 是 否 愿 意 排队 . 常见 的 排队 规则 有 
如 下 几 种 情况 a) 损失 制 排队 系统 : 顾客 到 达 时 , 知 有 服务 台 均 被 占 ， 服 务 机 构 
又 不 允许 顾客 等 待 ， 此 时 该 顾客 就 自动 辞去 ， 例 如 通 篆 使 用 的 损失 制 电话 系统 . 
b) 等 待 制 排队 系统 : 顾客 到 达 时 . 若 所 有 服务 台 均 被 占 ， 他 们 就 排队 等 待 服务 . 
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在 等 待 制 系统 中 ， 服 务 顺 序 又 分 为 : 先 到 先 服务 ， 即 顾客 按 到 达 的 先后 顺序 接受 
服务 ， 后 到 移 服 务 ， 例 如 情报 系统 、 天 气 预报 资料 总 是 后 到 的 信息 越 重要 ， 要 先 
处 理 ; 随机 服务 ， 即 在 等 待 的 顾客 中 随机 地 挑选 一 个 顾客 进行 服务 ， 例 如 电话 员 
接线 就 是 用 这 种 方式 工作 ; 有 优先 权 的 服务 ， 即 在 排队 等 待 的 顾客 中 . 茶 些 类 型 
的 顾客 具有 持 殊 性 ， 在 服务 顺序 上 要 给 予 特 别 待遇 ， 让 他 们 先 得 到 服务 ， 例 如 病 
危 人 先 治疗 市 小 孩 的 顾客 先进 站 等 。 c) 混合 制 排队 系统 :损失 制 与 等 符 制 的 
混合 , 分 为 队长 ( 容量) 有 限 的 混合 制 系统 ， 等 待 时 间 有 限 的 混合 制 系统 ， 以 及 
逗留 时 间 有 限制 的 混合 系统 . 

(3) 服务 机 构 

服务 机 构 主 要 包括 以 下 几 个 方面 : a) 服务 台 的 数目 .在 多 个 服务 台 的 情形 
下 ， 是 串联 或 是 并 联 : b) 顾客 所 需 的 服务 时 间 服 从 什么 样 的 概率 分 布 ， 每 个 顾 
客 所 需 的 服务 时 间 是 否 相互 独立 ， 是 成 批 服务 或 是 单个 服务 等 . 常见 顾客 的 服务 
时 间 分 布 有 : 定 长 分 布 、 指 数 分 布 、 超 指数 分 布 、k 阶 Erlang 分 布 、 几 何 分 布 、 
一 般 分 布 等 . 


3. 符号 表示 
排队 论 模型 的 记号 是 20 世纪 50 年 代 初 由 D. G. Kendall ( 肯 达 尔 ) 引入 的 ， 
通常 由 3 ~ 5 个 英文 字母 组 成 ， 其 形式 为 
A/B/C/n 


其 中 4 表示 输入 过 程 ， B 表示 服务 时 间 ， C 表示 服务 台数 目 ， n 表示 系统 空 
间 数 ， 例 如 : 

(1) M/M/S/% 表示 输入 过 程 是 Poisson 流 ， 服 务 时间 服 从 指数 分 布 ， 系 统 
有 5 个 服务 台 平 行 服务 ， 系 统 容 量 为 无 穷 的 等 待 制 排队 系统 . 

(2) M/G/1/% 表示 输入 过 程 是 Poisson 流 ， 顾 客 所 需 的 服务 时 间 为 独立 、 
服从 一 般 概率 分 布 ， 系 统 中 只 有 一 个 服务 台 ， 容 量 为 无 穷 的 等 待 制 系统 . 

(3) GT/MV/1/ee 表示 输入 过 程 为 顾客 独立 到 达 且 相继 到 达 的 间隔 时 间 服 从 
一 般 概率 分 布 ， 服 务 时 间 是 相互 独立 、 服 从 指数 分 布 ， 系 统 中 只 有 一 个 服务 台 ， 
容量 为 无 穷 的 等 待 制 系统 . 

(4) Er/G/1/K 表示 相继 到 达 的 间隔 时 间 独 立 、 服 从 阶 Erlang 分 布 ， 服 
务 时 间 为 独立 、 服 从 一 般 概率 分 布 ， 系 统 中 只 有 一 个 服务 台 ， 容 量 为 K 的 混合 
制 系统 . 
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(5) D/M/S/K 表示 相继 到 达 的 间隔 时 间 独 立 、 服 从 定 长 分 布 、 服 务 时 间 相 
互 独立 、 服 从 指数 分 布 ， 系 统 中 有 3 个 服务 台 平行 服务 ， 容 量 为 天 的 混合 制 系 
统 . 

4. 描述 排队 系统 的 主要 数量 指标 

(1) 队长 (Ls) 

队长 是 指 在 系统 中 的 顾客 的 平均 数 (包括 正在 接受 服务 的 顾客 ). 

(2) 顾客 的 平均 等 待 时 间 与 平均 逗留 时 间 (W) 

顾客 的 平均 等 待 时 间 是 指 从 顾客 进入 系统 的 时 刻 起 直到 开始 接受 服务 止 的 
平均 时 间 . 平均 逗留 时 间 是 指 顾客 在 系统 中 的 平均 等 待 时间 与 平均 服务 时 间 之 
和 .平均 等 待 时 间 与 平均 服务 时 间 是 顾客 最 关心 的 数量 指标 . 

(3) 系统 的 忙 期 与 内 期 

从 顾客 到 达 空 闲 的 系统 ， 服 务 立 即 开 始 ， 直 到 系统 再 次 变 为 空 闪 ， 这 上段 时 间 
是 系统 连续 繁忙 的 时 间 , 我 们 称 为 系统 的 忙 期 , 它 反 映 了 系统 中 服务 机 构 的 工作 
强度 ， 是 衡量 服务 机 构 利 用 效率 的 指标 . 














10.4.2 ”排队 模型 模拟 的 关键 


1. 关键 变量 
模型 模拟 的 关键 变量 是 事件 ， 以 及 每 个 事件 发 生 的 时 间 . 由 于 排队 模型 中 的 
每 个 事件 是 按时 间 发 生 的 ， 例 如 在 某 时 刻 有 顾客 到 达 ， 某 时 刻 有 顾客 离开 (服务 
完成 ) 等 ， 因 此 进行 模拟 有 三 个 关键 变量 : 
(1) 时 间 变 量 . 记录 系统 发 生 某 一 事件 的 时 间 ， 如 顾客 到 达 或 顾客 离开 . 
(2) 计数 变量 .当前 在 服务 系统 中 顾客 的 个 数 . 
(3) 系统 状态 变量 .系统 的 状态 ， 如 系统 是 空间 还 繁忙 ， 系 统 中 顾客 的 个 数 ， 分 
别 在 哪个 服务 如 台 接 受 服务 等 . 
有 了 这 三 个 关键 变量 ， 其 他 变量 就 好 处 理 了 . 
2. Poisson 过 程 的 模拟 


在 排队 服务 系统 中 ,通常 假设 顾客 的 到 达 时 间 和 接受 的 时 间 服 从 Poisson 过 
程 ， 因 此 ， 对 于 Poisson 过 程 的 模拟 是 十 分 重要 的 . 














AN 
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由 概率 知识 可 知 ， 当 随机 过 程 是 强度 为 和 的 Poisson 过 程 时 ， 其 点 间 间 距 是 
相互 独立 的 随机 变量 ， 且 服从 参数 为 和 的 指数 分 布 ， 即 





Me *, +t>0, 
fr(t) = 1 = 2,3,.…, 
0, t <0, 
1— Me *, +>0, 
Fr,(t) = 人 
0， ti< 0， 
因此 ， 有 


1 
t= -FIn(l ~ Fr()), 


由 于 Fn(t) ~ 0(0,1), 则 1 一 Fn(t) ~ U(0,1), 因 此， 模拟 Poisson 过 程 到 达 
的 时 间 间 隔 公 式 为 


1 
i (10.31) 


10.4.3 ”等 待 制 排队 模型 的 模拟 
等 符 制 排队 模型 中 最 常见 的 模型 是 M/M/5/oo, 即 顾客 到 达 系 统 的 相继 到 
达 时 间 间 隔 独立 ， 且 服从 参数 为 和 的 指数 分 布 〈 即 输入 过 程 为 Poisson 过 程 )， 
服务 台 的 服务 时 间 也 独立 同 分 布 ， 且 服从 参数 为 1 的 指数 分 布 ， 而 且 系 统 空间 
无 限 ， 允 许 永远 排队 . 
1. 5=1 的 情况 (M/M/1/%) 
系统 变量 
单一 变量 
t 一 时间 变 量 Na 一 在 t 时刻 到 达 系 统 的 顾客 总 数 
t4 一 硕 客 的 到 达 时 间 n 一 在 t 时 刻 当前 达 系 统 的 顾客 数 
tp 一 顾客 的 离开 时 间 7T 一 总 服务 时 间 
数组 变量 (以 大 为 自 变量 ) 
w# 一 记录 发 生 事件 的 时 间 ww 一 记录 系统 中 的 顾客 数 
ws 一 记录 上 一 事件 到 下 一 事件 的 间隔 时 间 
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模拟 算法 I 

(1) 初始 步 : 输入 总 服务 时 间 T. 置 t+ = Na = 0, 产生 顾客 到 达 系 统 的 初始 
时 间 ,和 置 t4 =T. 置 n=0,tp = co( 此 时 系统 中 无 顾客 ). 置 上 = 0. 

(2) 记录 系统 状态 . 置 大 = 有 二 1 ap) = 二 twn(k) = 二 n. 如 果 t4 <7, 则 置 











ws(k) = min(ta,tp)—t, 


然后 转 (3); 否则 置 
0, tp = 00, 
ws(k) = | 


tp—t, tp<o, 
然后 转 (8). 

(3) 如 果 t4 < tp, 则 置 +=t4, NA = NA 十 1( 顾 客 到 达 总 数 十 1), n ==n 十 1( 系 
统 中 顾客 数 十 1), 产生 下 一 顾客 到 达 系 统 的 时 间 ta4. 

(4) 如 果 n = 1, 产生 服务 台 上 顾客 的 离开 时 间 tp. 

(5) 如 果 ts 过 tp, 则 置 += tp, n==n 一 1( 系 统 中 顾客 数 一 1). 

(6) 如 果 n = 0( 系 统 中 无 顾客 ), 置 tp = co; 否则 产生 服务 台 上 顾客 的 离开 
时 间 75p. 

(7) 转 (2). 

(8) (此 时 t4 > 了 , 不 再 接收 新 顾客 ， 只 完成 系统 中 顾客 的 服务 )， 如 果 n > 
0( 系 统 中 还 有 顾客 ), 并 置 上 = tp, n = n 一 1( 系 统 中 顾客 数 一 1). 如 果 n > 0, 产 
生 服 务 台 上 顾客 的 离开 时 间 Tp, 然后 转 (2); 否则 转 (9). 

(9) 计算 队长 (Ls) 、 平 均 逗 留 时 间 (Ws) 和 顾客 等 待 的 概率 (Pait). 


Ls = FD wk) walk), 


k 
1 
Ws。 = — ws(k) :wn(k), 
NW Dh) unl) 
1 
Fait 三 >， ws(k), 
wn(k)>1 


停止 计算 ， 输出 Ls 、 Ws 和 了 
R 程序 (程序 名 :queuel1.R) 
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queuel<-function(lambda, mu, T){ 
k<-0; wt<-0; wn<-0; ws<-0,; 
tp<-0; nA<-0; n<-0; t<-0 
r<-runif(1); tA<--1/lambda*log(r); tD<-Inf 


repeat{ 
k<-k+1; wt[k]<-t; wn[lk]<-n 
if (tA < T){ 


ws[k]<-min(tA, tD)-t 
if (tA < tD){ 
t<-tA; n<-n+1; nA<-nA+1 
r<-runif(1); tA<-t-1/lambda*log(r) 
if (n==1){ 
r<-runif (1); tD<-t-1/mu*log(r) 
} 
J}elset{ 
t<-tD; n<-n-1 
if (n==0){ 
tD<-Inf 
}else{ 
r<-runif (1); tD<-t-1/mu*log(r) 


} 
}else{ 
ws[k]<-if(tD==Inf) 0 else tD-t 
if (n>0){ 
t<-tD; n<-n-1 
if (n>0){ 
r<-runif (1); tD<-t-1/mu*log(r) 


}else 
tp<-1 
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} 
if (tp==1) break 
} 
data.frame(Ls=sum(ws*wn)/t, Ws=sum(ws*wn)/nA, 
Pwait=sum(ws [wn>=1])/t) 
} 
例 10.14 某 维修 中 心 在 周末 现 只 安排 一 名 员工 为 顾客 提供 服务 .新 来 维修 的 顾 
客 到 达 后 ， 著 已 有 顾客 正在 接受 服务 ， 则 需要 排队 等 待 . 假设 来 维修 的 顾客 到 达 
过 程 为 Poisson 流 ， 平 均 4 人 /小 时 ， 维 修 时 间 服 从 指数 分 布 ， 平 均 需 要 6 分 
钟 ， 试 用 模拟 的 方法 求 该 条 统 的 的 队长 (Ls) 、 平 均 运 留 时 间 (Ws) 和 顾 容 等 竺 
的 概率 (系统 繁忙 概率 ) (Pait). 
解 : 调用 编 好 的 程序 queuel .RB, 输入 相应 的 参数 指标 ， 模 拟 1000 小 时 的 排 
队 服 从 系统 的 运行 情况 ， 
> source("queuel.R'") 
> queueli(lambda=4, mu=10, T=1000) 
Ls Ws Pwait 
1 0.6938313 0.1685005 0.4118629 


其 理论 值 为 Ls = 0.6666667( 人 ), Ws = 0.1666667( 小 时 ). Pai = 0.4. 
例 10.15 在 商业 中 心 处 设置 一 台 ATM 机 ， 假 设 来 取 钱 的 顾客 平均 每 分 钟 0.6 
个 ， 而 每 个 顾客 的 平均 取 钱 的 时 间 为 1.25 分 钟 ， 试 用 模拟 的 方法 求 该 ATM 机 
的 队长 (Ls) 、 平均 运 留 时 间 (Ws) 和 顾客 等 待 的 概率 人 5 类 

解 : 模拟 10000 分 钟 的 排队 服从 系统 的 运行 情况 ， 

> queuel1(lambda=0.6，mu=0.8，T=10000) 

LS Ws Pwait 
1 2.949336 4.895917 0.7577775 


其 理论 值 为 工 . = 3( 人 ), Ws = 5( 分 钟 ). Ps = 0.75. 
从 上 面 两 个 例子 可 以 看 出 ， 模 拟 值 与 理论 值 还 是 很 接近 的 . 
2. 5 > 1 的 情况 (M/M/ S/o) 


系 纪 变量 
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对 于 3 > 1 的 情况 ， 变 量 意义 基本 上 与 9 = 1 的 情况 相同 ， 只 是 此 时 的 tp 
为 数组 ， 增 加 一 个 状态 变量 55, 记录 系统 的 状态 情况 . 

模拟 算法 工 

(1) 初始 步 ， 输入 总 服务 时 间 T. 置 二 = Na = 0, 产生 顾客 到 达 系 统 的 初始 
时 间 70, 置 tj 二 To. 和 置 n=0,tp(i) = ,i 二 1,2,…,5( 此 时 系统 中 无 顾客 ). 置 
SS(i) = 0,i= 1,2,.…,S+1(5S(1) 记录 系统 当前 状态 的 顾客 数 ，SS(2 ~ 5 十 1) 
记录 5 个 服务 台 的 工作 状态 ， 0 为 空间 ，1 为 工作 ). 置 上 = 0. 

(2) 如 果 5SS(1) = 0, 则 置 到 = co, 1 三 了 否则 置 = min(tp), 和 = 
argmin(tp). 


(3) 记录 系统 状态 . 置 二 上 十 二， wi(k) t, wn(k) 二 儿 . 如 果 tA< £ 则 置 











ws(k) = min(ta,t1)—1, 


然后 转 (4); 否则 置 


0, OO， 
ws() = 
ti—t, ti<o%, 


然后 转 (11). 

(4) 如 果 ta4 < 三, 则 置 t+=t4, Na = Na 十 1( 顾 客 到 达 总 数 十 1), 产生 下 一 顾 
客 到 达 系 统 的 时 间 T4. 置 n= S55(1), 5$S(1) =n 十 1( 系 统 中 顾客 数 十 1). 

(5) 对 于 ? = 1,2,…,S, 如 果 SS(1 二 人) = 0( 第 ;个 服务 台 空闲 )， 则 置 
55(L+ = 1( 将 系统 中 的 顾客 分 配给 第 i 个 服务 台 ， 开 始 服 务 ), 产生 第 i 个 服 
务 台 上 顾客 离开 的 时 间 Tp(i), 然后 中 止 循环 . 

(6) 如 果 ta > 如 则 置 t= 石 ,n= SS(1), SS() =n 一 1( 系 统 中 顾客 数 一 1). 
7) 如 果 n = 1( 系 统 中 无 顾客 ), 置 SS(1 + 让 = 0, tp(i) = 00,i=1,2,.…,5. 
8) 如 果 n < 5S, 置 SS(L+i) =0,tp(ii) = co( 第 全 个 服务 台 空 闲 )， 

9) 如 果 n > 5, 产生 顾客 离开 第 1 个 服务 台 的 时 间 7P(2). 

10) 转 (2). 

11) (此 时 ts > 全, 不 再 接收 新 顾客 ， 只 完成 系统 中 顾客 的 服务 )， 置 n = 
SS(1). 如 果 n > 0, 则 置 上 = tp, 95(1) = n 一 1( 系 统 中 顾客 数 一 1), 然后 转 (7); 
否则 转 (12). 


i i a re 


ES 
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(12) 计算 队长 (Zs) 、 平均 逗留 时 间 (W;) 和 顾客 等 待 的 概率 (Prait). 


Ls = -DY》 ws(k): wa(k), 
t k 
1 

Ws 二 a Ws 天 “Wn, 天 》 
Ni DN) 加 的 
1 

Fa 和 国 >， ws(k), 
wn(k)>5 


停止 计算 ， 输出 Ls。、 Ws 和 Pait. 
R 程序 (程序 名 : queue2.R) 
queue2<-function(lambda, mu, T, S=2){ 
k<-0; wt<-0; wn<-0; ws<-0 
tp<-0; nA<-0; t<-0 
r<-runif (1); tA<--1/lambda*log(r) 
tD<-rep(Inf, S); SS<-rep(0, S+1) 


repeat{ 
t1<-if (SS[1]==0) Inf else min(tD) 
i1<-if(SS[1]==0) 1 else which.min(tD) 
k<-k+1; wt[k]<-t; wn[k]<-SS[1] 
if (tA < T){ 
ws[k]<-min(tA, t1)-t 
if (tA < t1)+ 
t<-tA; nA<-nA+1 
r<-runif(1); tA<-t-1/lambda*log(r) 
n<-SS[1]; SS [1] <-n+1 
for (i in 1:S){ 
if (SS[1+i]==0)+ 
SS [1+i]<-=-1 
r<-runif (1); tD[i]<-t-1/mu*log(r) 


break 
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} 
}elset{ 
t<-ti; n<-SS[1]; SS[1]<-n-1 
if (n==1){ 
SS[2:(S+1)]<-0; tD[I1:S]<-Inf 
}else if (Cn<=S){ 
SS[1+i1]<-0; tD[i1]<-Inf 
jelset 
r<-runif(1); tD[i1]<-t-1/mu*log(r) 


} 
} 
}else{ 
ws[k]j<- if( t1==Inf) 0 else t1-t 
n<-SS[1] 
if (n>0){ 
t<-t1i; SS[1]<-n-1; 
if (n==1){ 


SS[2:(S+1)]<-0; tD[1:S]<-Inf 
}else if (n<=S)+ 
SS[1+i1]<-0; tD[i1]<-Inf 
jelset 
r<-runif (1); tD[i1]<-t-1/mu*log(r) 


} 
J}else 
tp<-1 
} 
if (tp==1) break 


} 
data.frame(Ls=sum(ws*wn)/t, Ws=sum(ws*wn)/nA, 
Pwait=sum(ws [wn>=S] )/t) 
} 
例 10.16 设 打 印 室 有 3 名 打字 员 , 平均 每 个 文件 的 打印 时 间 为 10 分 钟 ， 而 文件 
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的 到 达 率 为 每 小 时 15 件 ， 试 用 模拟 的 方法 求 该 打印 室 文 件 的 队长 (Ls) 、 文 件 的 
平均 运 留 时 间 (Ws) 和 文件 等 待 的 概率 (Pait). 

解 : 调用 编 好 的 程序 queue2.BR, 输入 相应 的 参数 指标 ， 模 拟 1000 小 时 的 排 
队 服 从 系统 的 运行 情况 ， 

> Source("queue2.R") 

> queue2(lambda=15, mu=6, T=1000, S=3) 

Ls Ws Pwait 
1 5.980315 0.4010408 0.7002678 


其 理论 值 为 L = 6.011236( 件 ), Ws = 0.4007491( 小 时 ). Pait 二 0.7022472. 


10.4.4 ”损失 制 与 混合 制 排队 模型 


损失 制 排队 模型 通常 记 为 M/M/5/5, 当 5 个 服务 器 被 占用 后 ， 顾客 自 动 离 

去 . 
混合 制 排队 模型 通常 记 为 M/M/S/K, 即 有 3 个 服务 台 或 服务 员 ， 系 统 空 

间 容 量 为 K(K > 5), 当天 个 位 置 已 被 顾客 占用 时 ， 新 到 的 顾客 自动 离 去 ， 当 系 
统 中 有 空位 置 时 ， 新 到 的 顾客 进入 系统 排队 等 待 . 当 KK = 3 时 ， 混 合 制 排队 模 
型 就 退化 成 损失 制 排 队 模 型 . 

这 里 只 给 出 混合 制 排队 模型 的 模拟 情况 ， 因 为 当 KK = 9 时 ， 就 是 损失 制 排 
队 模型 的 情况 . 在 前 面 给 出 等 待 制 模 型 的 模拟 后 , 混合 制 排队 模型 的 模拟 就 简单 
多 了 ， 只 需 对 前 面 的 程序 作 小 的 修改 ， 在 当前 系统 顾客 数 达到 天 时 ， 则 新 到 的 
顾客 自动 离开 . 其 他 程序 不 变 . 

下 面 给 出 相应 的 算法 和 程序 . 注意， 对 于 损失 制 与 混合 制 排队 模型 ， 除 关心 
队长 (Ls) 、 平 均等 待 时 间 (Ws) 外 ， 还 要 关心 系统 的 顾客 损失 率 (Post). 

1. 5 =1 的 情况 (M/M/1/K) 

模拟 算法 亚 

(1) 初始 步 ， 输入 总 服务 时 间 7T. 置 二 = Na = 0, 产生 顾客 到 达 系 统 的 初始 
时 间 To, 置 刀 =20. 置 n=0,tp = co( 此 时 系统 中 无 顾客 ). 置 太 = 0. 

(2) 记录 系统 状态 . 置 天 = 有 十 1 ip) = 二 twn( 有 ) = 二. 如 果 ta <7, 则 和 置 

















ws(k) = min(ta,tp) —t, 
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然后 转 (3); 否则 置 
0, tp = OO， 
ws(k) = | 


tp—t, tp < o%, 
然后 转 (9). 

(3) 如 果 t4 < tp, 则 置 1=t4, Na = 二 Na 十 1( 顾 客 到 达 总 数 十 1), n 二 n 十 1( 系 
统 中 顾客 数 +1), 产生 下 一 顾客 到 达 系 统 的 时 间 t4. 

(4) 如 果 n = 1, 产生 服务 台 上 顾客 的 离开 时 间 tp. 

(5) 如 果 n = KK( 当 前 顾客 达到 系统 容量 ), 做 如 下 工作 : 

若 t4 < tp( 新 顾客 在 已 被 服务 的 顾客 离开 前 到 达 ), 则 产生 下 一 顾客 到 达 

系统 的 时 间 ta (因为 这 个 新 顾客 需要 离开 ), 直至 t4 > tp 为 止 . 

(6) 如 果 ta > tp, 则 置 t= tp, n= 二 n 一 1( 系 统 中 顾客 数 一 1). 

(7) 如 果 n = 0( 系 统 中 无 顾客 ), 置 tp = 00; 否则 产生 服务 台 上 顾客 的 离开 
时 间 7p. 

四 转 人 ) 

(9) (此 时 ta 之 工 , 不 再 接收 新 顾客 ， 只 完成 系统 中 顾客 的 服务 ). 如 果 n > 
0( 系 统 中 还 有 顾客 ), 并 置 1 = tp, n 二 n 一 1( 系 统 中 顾客 数 一 1). 如 果 nn > 0, 产 
生 服 务 台 上 顾客 的 离开 时 间 7D, 然后 转 (2); 否则 转 (10). 

(10) 计算 队长 (Ls) 、 平 均 有 逗留 时 间 (Ws) 和 系统 的 顾客 损失 率 (Piost). 


Ls 二 a ws(k wn( 
Ws 二 RD ws(k Wwn( 


Post ee ~ > ws(k), 
wn(k)>K 
停止 计算 ， 输出 Ls。 、 Ws 和 Pos. 
R 程序 (程序 名 :queue3.R) 
queue3<-function(lambda, mu, T, K=1){ 
k<-0; wt<-0; wn<-0; ws<-0 
tp<-0; nA<-0; n<-0; t<-0 
r<-runif(1); tA<--1/lambda*log(r); tD<-Inf 
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repeat{ 
k<-k+1; wt[k]<-t; wn[lk]<-n 
if (tA < T){ 


ws[k]<-min(tA, tD)-t 
if (tA<=tD){ 
t<-tA; n<-n+1; nA<-nA+1 
r<-runif(1); tA<-tA-1/lambda*log(r) 
if (n==1){ 
r<-runif (1); tD<-t-1/mu*log(r) 
} 
if (n==K){ 
while (tA < tD){ 
r<-runif(1); tA<-tA-1/lambda*log(r) 


} 
}else{ 
t<-tD; n<-n-1 
if (n==0){ 
tD<-Inf 
jelset 
r<-runif (1); tD<-t-1/mu*log(r) 


} 
}else{ 
ws[k] <-if(tD==Inf) 0 else tD-t 
if (n>0){ 
t<-tD; n<-n-1 
if (n>0){ 
r<-runif (1); tD<-t-1/mu*log(r) 


}else 
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tp<-1 
} 
if (tp==1) break 
} 
data.frame(Ls=sum(ws*wn)/t, Ws=sum(ws*wn)/nA, 
Plost=sum(ws [wn>=K] ) /t) 
J 
例 10.17 设 某 条 电话 线 , 平均 每 分 钟 有 0.6 次 呼唤 ,， 若 每 次 通话 时 间 平 均 为 1.25 
分 钟 ， 试 用 模拟 的 方法 求 该 系统 的 队长 (Ls) 、 平 均 运 留 时 间 (Ws) 和 系统 的 损 
失 率 (Piost). 
解 : 调用 编 好 的 程序 queue3 .BR, 输入 相应 的 参数 指标 ,模拟 10000 分 钟 的 排 
队 服 从 系统 的 运行 情况 ， 
> source("queue3.R'") 
> queue3(lambda=0.6, mu=0.8, T=10000) 
Ls Ws Plost 
1 0.4289211 1.259454 0.4289211 
其 理论 值 为 L, = 0.4285714( 次 ), Ws = 1.25( 分 钟 ). Plost = 0.4285714. 
例 10.18 某 理发 店 只 有 1 名 理发 员 ， 因 场所 有 限 ， 店 里 最 多 可 容纳 4 名 顾客 ， 
假设 来 理发 的 顾客 按 Poisson 过 程 到 达 , 平均 到 达 率 为 每 小 时 6 人 ， 理 发 时 间 服 
从 指数 分 布 ， 平 均 12 分 钟 可 为 ! 名 顾客 理发 ， 试 用 模拟 的 方法 求 该 系统 的 队长 
(Ls) 、 平 均 运 留 时 间 (Ws) 和 系统 的 损失 率 (Piost). 
解 : 模拟 1000 小 时 的 排队 服从 系统 的 运行 情况 ， 
> queue3(lambda=6, mu=5, T=1000, K=4) 
Ls Ws Plost 
1 2.364356 0.5412132 0.2718579 
其 理论 值 为 Ls = 2.359493( 人 ), Ws = 0.5451565( 小 时 ). Post = 0.2786498. 


2. 5S > 1 的 情况 (M/M/S/K) 

模拟 算法 IV 

(1) 初始 步 : 输入 总 服务 时 间 了 . 置 上 = Na = 0, 产生 顾客 到 达 系 统 的 初始 
时 间 5, 置 4 二 Tw. 置 n=0,tp(i) = 00,i 二 1,2,…,S( 此 时 系统 中 无 顾客 ). 置 
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SS(i) = 0,1== 1,2,.…,S 十 1(SS(1) 记录 系统 当前 状态 的 顾客 数 ，SS(2 ~ 5S 十 1) 
记录 5 个 服务 台 的 工作 状态 ， 0 为 空间 ，1 为 工作 ). 置 上 = 0. 

(2) 如 果 SS(1) = 0, 则 置 妇 = 00, 条 二 1; 否则 置 妇 = min(tp), 全 
argmin(tp). 





ws(k) = min(ta,t1) —t, 


然后 转 (4); 否则 置 
0, ti 一 OO 
ws(k) = | 


ti—t, ti<o%, 


然后 转 (12). 

(4) 如 果 ta < 右 , 则 置 t+=t4, Na = Na 十 1( 顾 客 到 达 总 数 十 1), 产生 下 一 顾 
客 到 达 系 统 的 时 间 74. 置 n= 55(1), $5(1) =n 十 1( 系 统 中 顾客 数 十 1 

(5) 对 于 i = 1,2,…,S, 如 果 SS(1 + = 0( 第 i 个 服务 台 空 闪 ), 则 置 
SS(1 十 外 = 二 1( 将 系统 中 的 顾客 分 配给 第 i 个 服务 台 ， 开 始 服 务 ), 产生 第 i 个 服 
务 台 上 顾客 离开 的 时 间 Tp(i), 然后 中 止 循环 . 

(6) 如 果 SS(1) = K( 当 前 顾客 达到 系统 容量 ), 做 如 下 工作 : 

置 妇 二 min(tp). 阁 t4 < 妇 ( 新 顾客 在 已 被 服务 的 顾客 离开 前 到 达 ), 则 产 

生 下 一 顾客 到 达 系 统 的 时 间 t4( 因 为 这 个 新 顾客 需要 离开 ), 直至 t4 > 为 止 . 

(7) 如 果 t4 过 三, 则 置 二 = 三 ,由 = 55(1), 5S(1) =n 一 1( 系 统 中 顾客 数 一 1). 

(8) 如 果 n == 1( 系 统 中 无 顾客 ), 置 SS(1 + 让 = 0, tp(i) = oo ==1,2,.…,5. 

(9) 如 果 n< 5, 置 SS(1 二 科 ) 二 0,tp( 讶 ) 二 00( 第 和 个 服务 台 空 闪 ). 

(10) 如 果 n > 5, 产生 顾客 离开 第 i 个 服务 台 的 时 间 Tp(i1). 

(11) 转 (2). 


(12) (此 时 ta > 7, 不 再 接收 新 顾客 ， 只 完成 系统 中 顾客 的 服务 )， 置 n = 
SS(1). 如 果 n > 0, 则 置 二 = tp, 55() = n 一 1( 系 统 中 顾客 数 一 1), 然后 转 (8); 
否则 转 (13). 
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(13) 计算 队长 (Ls) 、 平 均 逗 留 时 间 (Ws) 和 顾客 等 待 的 概率 ( Piost). 


1 

J a ws(k) : wn(k), 
t k 
1 

W, = 一 一 ws (KE): wn(k), 
Ni Dl) lh) 
1 

Post > I > ws(k), 

wn(k)>K 


停止 计算 ， 输出 Ls。 、 Ws 和 Pos. 

R 程序 (程序 名 : ”queue4.R) 

queue4<-function(lambda, mu, T, S=1, K=1){ 
if (K<S) K<-S 
k<-0; wt<-0; wn<-0; ws<-0 
tp<-0; nA<-0; t<-0 
r<-runif (1); tA<--1/lambda*log(r) 
tD<-rep(Inf, S); SS<-rep(0, S+1) 


repeat{ 
t1<-if (SS[1]==0) Inf else min(tD) 
i1<-if(SS[1]==0) 1 else which.min(tD) 
k<-k+1; wt[k]<-t; wn[k]<-SS[1] 
if (tA < T){ 
ws[k]<-min(tA, t1)-t 
if (tA < t1){ 
t<-tA; nA<-nA+1 
r<-runif(1); tA<-t-1/lambda*log(r) 
n<-SS[1]; SS [1] <-n+1 
for (i in 1:S){ 
if (SS[1+i]==0){ 
SS [1+i]<=-1 
r<-runif (1); tD[i]<-t-1/mu*log(r) 


break 
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} 
if (SS[1]==K){ 
ti <- min(tD) 
while (tA < t1){ 
r<-runif(1); tA<-tA-1/lambda*log(r) 


} 
}elset{ 
t<-ti; n<-SS[1]; SS[1]<-n-1 
if (n==1){ 
SS[2:(S+1)]<-0; tD[1:S]<-Inf 
}else if (Cn<=S){ 
SS[1+i1]<-0; tD[i1]<-Inf 
jelset 
r<-runif (1); tD[i1]<-t-1/mu*log(r) 


} 
} 
}else{ 
ws[k]<- if( t1==Inf) 0 else t1-t 
n<-SS [1] 
if (n>0){ 
t<-t1; SS[1]<-n-1; 
if (n==1){ 


SS[2:(S+1)]<-0; tD[I1:S]<-Inf 
}else if (n<=S)+ 

SS[1+i1]<-0; tD[i1]<-Inf 
jelset 

r<-runif (1); tD[i1]<-t-1/mu*log(r) 


}else 
tp<-1 
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} 
if (tp==1) break 
} 
data.frame(Ls=sum(ws*wn)/t, Ws=sum(ws*wn)/nA, 
Plost=sum(ws [wn>=K] ) /t) 
} 
例 10.19 某 工 厂 的 机 器 维修 中 心 有 9 名 维修 工 ， 因 为 场地 限制 ， 中 心 内 最 多 可 
以 容纳 12 台 需 要 维修 的 设备 ， 假 设 待 修 的 设备 按 Poisson 过 程 到 达 ， 平 均 每 天 
台 ， 维 修 设 备 服从 指数 分 布 ， 每 台 设 备 平 均 需 要 2 天 时 间 ， 试 用 模拟 的 方法 求 
该 条 统 的 队长 (Ls) 、 平 均 运 留 时 间 (Ws) 和 系统 的 损失 率 (Piost). 
解 : 调用 编 好 的 程序 queue4.R, 输入 相应 的 参数 指标 ， 模 拟 1000 天 的 排队 
服从 系统 的 运行 情况 ， 
> source("queue4.R") 
> queue4(lambda=4, mu=1/2, T=1000，S=9,，K=12) 
Ls Ws Plost 
1 7.736918 2.148876 0.08801383 


其 理论 值 为 L, = 7.872193( 台 ), W, = 2.153466( 分 钟 ). Post = 0.08610186. 


习题 十 


10.1 用 Monte Carlo 方法 计算 定 积 分 了 V1 十 x2dx, 分 别 考 虑 随机 投 点 
法 和 平均 值 法 ， 并 计算 在 置信 和 度 为 a = 0.05, 精度 要 求 为 = 0.01 条 件 下 ， 两 种 
方法 所 需 的 试验 次 数 . 

10.2 一 只 兔子 在 O 点 处 ， 它 的 洞 灾 在 正 北 20 米 的 P 点 处 ， 一 只 狼 位 于 兔子 
的 正 东 33 米 的 4 点 处 . Re 题 : 狼 以 一 倍 于 兔子 的 速度 紧 盯 着 兔子 
追击 . 画 出 狼 追 免 子 的 追逐 曲线 问 ， 当 兔子 到 达 洞 口 前 是 否 被 狼 遂 住 ? 

10.3 一 个 服务 员 的 信贷 亭 ， 顾客 的 平均 到 达 时 间 服 从 均值 为 20 秒 ， 标 准 差 10 
秒 的 正 态 分 布 ， 顾 客 购买 1 ~ 4 件 商品 的 概率 为 

1 件 ，05 2 件 ，0.2， 3 件 ，0.2 4 件 : 0.1. 
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购买 每 件 商 品 需要 的 时 间 服 从 均值 为 15 秒 ， 标 准 差 为 5 秒 的 正 态 分 布 ， 若 信贷 
亭 无 顾客 ， 则 新 到 的 顾客 接受 服务 ; 否则 排队 等 待 ， 即 看 成 是 等 待 制 排队 系统 . 
试 模拟 售 货 亭 运 营 12 个 小 时 后 ， 售 货 亭 的 顾客 队长 (Ls), 顾客 的 平均 去 留 时 间 
(Ws) 和 售 货 亭 繁 忙 的 概率 . 
10.4 电梯 运输 问题 ,游客 参观 电视 高 塔 ， 到 达 为 指数 分 布 ， 平 均 的 到 达 间 陋 为 
3 分钟 ， 在 下 面 排队 等 候 电 梯 ， 电 梯 容 量 8 人， 至 少 有 9 人 来 电梯 时 才 开 动 ， 电 
梯 运 行 时 间 为 常数 ， 在 塔 顶 ， 游 客 停留 时 间 服 从 均值 为 5 分钟 ， 标 准 差 为 3 分 
钟 的 正 态 分 布 ， 然 后 下 塔 . 在 下 塔 人 中 ， 有 20 色 的 人 步行 下 塔 ， 有 80 甸 的 人 乘 
电梯 . 车 塔 顶 的 游客 全 部 要 下 塔 ， 虽 不 足 9 人 电梯 也 开动 ， 而 且 最 后 1 人 下 塔 
总 是 乘 电梯 ， 试 模拟 10 小 时 内 游客 上 、 下 塔 的 平均 等 待 时 间 . 
10.5 按 下 列 条 件 模 拟 理发 店 系统 工作 状态 情况 . 

(1) 理发 店 上 午 10:00 开门 ， 开 门 时 无 顾客 等 待 ， 

(2) 各 顾客 是 否 来 此 店 理发 及 何 时 来 此 店 理发 与 他 人 无 关 ， 且 任意 两 个 顾客 
到 达 的 时 间 间 隔 服 从 均值 为 4 分 钟 的 指数 分 布 . 

(3) 顾客 中 有 60% 的 人 仅 前 发， 40 务 的 需要 洗 发 、 剪 发 和 吹 发 . 

(4) 服务 员 甲 为 一 位 顾客 前 发 的 时 间 服 从 6 分 分 钟 的 指数 分 布 ， 洗 发 、 剪 发 
和 吹 发 所 花 时 间 服 从 9 分 钟 的 指数 分 布 ， 服务 员 乙 的 服务 时 时 间 也 服从 指数 分 
布 ， 均 值 分 别 为 5 分 钟 和 7.5 分钟 . 

(5) 当 顾 客 到 达 时 ,如 发 现 已 有 6 位 顾客 正在 排队 等 待 服务 , 则 放弃 等 待 (高 
去 ). 

(6) 每 位 服务 员 不 间断 地 为 4 位 顾客 服务 后 都 要 休息 I 分 钟 . 

(7) 理发 店 晚 8:00 后 谢绝 顾客 进入 ， 在 完成 店内 的 顾客 服务 后 关门 . 
试 模拟 在 一 天 的 运营 中 ， 来 店 顾客 的 队长 (Ls) 、 平 均 运 留 时 间 (Ws。) 和 理发 店 
的 损失 率 (Piost). 
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第 十 章 计算 机 模拟 


附录 索引 


在 书 中 ， 共 有 两 类 函数 ， 一 类 是 作者 自 编 的 函数 ， 男 一 类 是 R 软件 提供 的 
函数 . 为 便于 读者 查找 ， 下 面 给 出 函数 的 案 引 . 索引 由 三 部 分 组 成 ， 第 一 部 分 是 
函数 名 ， 第 二 部 分 是 函数 的 意义 ， 第 三 部 分 是 能 够 解释 该 函数 意义 或 能 够 体现 该 
函 使 用 方法 的 章节 号 . 由 于 有 些 函 数 在 全 书 中 不 断 调用 ,因此 在 其 他 位 置 出 现 的 
章节 号 就 不 再 列 出 了 . 











附录 1 上 自 编写 的 函数 (程序 ) 


anova.tab 一 计算 方差 分 析 表 ， 7.1.3 节 ，7.1.6 节 ， 7.2.1 节 ，7.2.2 节 
area 一 计算 定 积 分 ， 2.9.4 节 


beta int 一 回归 参数 8 的 区 间 估 计 ， 6.1.4 节 ， 6.3.4 节 ，6.3.7 节 
buffon 一 模拟 Buffon 的 投 针 试验 ， 10.1.2 节 


corcoef .test 一 典型 相关 系数 检验 函数 ， 9.3.4 节 


data_outline 一 计算 样本 的 各 种 描述 性 统计 量 ， 3.1.3 市 
discriminiant .bayes 一 Bayes 判别 函数 (两 类 ), 8.1.2 节 
distinguish.bayes 一 Bayes 判别 函数 (多 类 ), 8.1.2 市 
discriminiant .distance 一 距离 判别 函数 (两 类 ), 8.1.1 市 
distinguish.distance 一 距离 判别 函数 (多 类 ), 8.1.1 证 
discriminiant .fisher 一 Fisher 判别 函数 (两 类 ), 8.1.3 市 


factor.analy 一 因子 分 析 (综合 ), 9.2.3 节 
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factor.analyl 一 因子 分 析 ( 主 成 分 法 ), 9.2.3 节 
factor.analy2 一 因子 分 析 (主因 子 法 ), 9.2.3 节 
factor.analy3 因子 分 析 ( 极 大 似 然 法 ), 9.2.3 节 
fzero 一 二 分 法 求 非 线性 方程 的 根 ， 2.9.1 市 


interVval_estimatel 一 区 间 估 计 (单个 正 态 总 体 
interval_estimate2 一 区 间 估 计 (两 个 正 态 总 体 
interval_estimate3 一 区 间 佑 计 ( 非 正 态 总 
interval_estimate4 一 区 间 佑 计 (单个 正 态 
interval_estimate5 一 区 间 佑 计 (两 个 正 态 
interval_vart 一 区 间 佑 计 (单个 正 态 总 
interval_var2 一 区 间 佑 计 (两 个 正 态 总 
interval_var3 一 区 间 佑 计 (单个 正 态 总 
interval_var4 一 区 间 佑 计 (两 个 正 态 总 


da 


MC1 一 用 Monte Carlo 方法 (随机 投 点 法 ) 求 7 的 估计 值 ， 
MC1_2 一 用 Monte Carlo 方法 (平均 值 法 ) 求 5 的 估计 值 ， 
MC2 一 用 Monte Carlo 方法 求解 赶 火 车 问题 ， 10.3.2 节 


MC3 一 用 Monte Carlo 方法 求解 核反应 堆 屏 蔽 层 设计 问题 ， 


mean.test1 一 单个 正 态 总 体 的 均值 检验 ， 5.2.1 节 
mean .test2 一 两 个 正 态 总 体 的 均值 差 检 验 ， 5.2.1 节 
moment_fun 一 作 甜 估计 用 的 解 方程 函数 ， 4.1.1 市 


Newtons 一 Newton 法 求 方程 组 的 根 ， 2.9.3 节 ， 4.1.1 节 
nP 一 使 谱系 图 更 好 看 的 函数 ， 8.2.2 市 


outline 一 绘 数据 的 轮 廊 图 ， 3.5.1 节 


总 体 均值 、 双 侧 ), 4.3.1 节 
总 体 均值 、 双 侧 ), 4.3.2 节 
体 均值 、 双 侧 ), 4.3.3 节 
总 体 均 值 、 单 侧 ), 4.3.4 节 
总 体 均 值 、 单 侧 ), 4.3.4 节 
方差 、 双 侧 ), 4.3.1 节 
方差 比 、 双 侧 ), 4.3.2 节 
方差 、 单 侧 ), 4.3.4 节 
方差 比 、 单 侧 ), 4.3.4 节 


10.1.2 节 
10.1.3 节 


10.3.2 节 


附录 2_R 软件 中 的 函数 (程序 ) 


paramet .int 一 非 线 性 拟 合 参 数 的 区 间 估 计 ， 6.7.2 节 
P_value 一 计算 P- 值 ，5.2.1 节 


queuel 一 模拟 等 符 制 ( 单 服 务 台 ) 排队 模型 ， 10.4.3 市 
queue2 一 模拟 等 符 制 (多 服务 台 ) 排队 模型 ， 10.4.3 市 
queue3 一 模拟 混合 制 ( 单 服 务 台 ) 排队 模型 ， 10.4.4 市 
queue4 一 模拟 混合 制 (多 服务 台 ) 排队 模型 ， 10.4.4 市 


Reg_Diag 一 回归 诊断 ， 6.5.4 节 
Rosenbrock 一 Rosenbrock 孔 数 ，4.1.2 节 
ruben.test 一 通过 样本 的 相关 系数 估计 总 体 的 相关 系数 ， 


trace 一 模拟 追逐 问题 ， 10.3.1 节 
twosam 一 计算 两 样本 的 统计 量 ， 2.9.1 市 


unison 一 绘 数据 的 调和 曲线 ， 3.5.3 节 


var.testl 一 方差 检验 (单个 正 态 总 体 ), 5.2.2 市 
var .test2 一 方差 比 检验 (两 个 正 态 总 体 ), 5.2.2 节 


附录 2 R 软件 中 的 函数 (程序 ) 


abline 一 低 水 平 作 图 函数 ， 加 直线 ， 3.3.3 节 ， 6.1.7 节 


3.4.2 节 
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addl 一 逐步 回归 ， 增 加 一 个 变量 ， 6.4.2 节 

all 一 判别 全 部 为 真 ， 2.2.3 节 

anova 一 生成 方差 分 析 表 ， 6.2.2 节 

any 一 判别 之 一 为 真 ， 2.2.3 节 

aov 一 计算 方差 分 析 表 ， 7.1.3 节 ，7.2.1 节 ，7.2.2 节 ，7.3.2 节 ，7.3.3 节 
apply 一 应 用 函数 ， 计 算数 组 的 各 种 运算 ， 2.5.5 节 ， 3.1.1 节 
assign 一 赋值 函数 ， 2.2.1 节 

as .data.frame 一 转换 为 数据 框 ， 2.6.2 节 

as .dendrogranm 一 将 系统 聚 类 的 对 象 转换 为 谱系 图 对 象 ， 8.2.2 证 
as .character 一 转换 为 字符 型 变量 ， 2.3.1 节 

as .numeric 一 转换 为 数值 型 变量 ， 2.3.1 节 

as .vector 一 转换 为 向 量 ， 2.5.5 节 

array 一 构造 多 维 数组 ， 2.5.1 市 

attach 一 连接 数据 框 或 列表 函数 ， 2.6.2 节 

attr 一 存 取 对 和 象 的 属性 ， 2.3.3 节 

attributes 一 返回 对 象 的 属性 ， 2.3.3 节 

axes 一 图 中 的 逻辑 命令 ， 是 否 画 坐 标 轴 ， 3.3.2 市 

axis 一 低 水 平 作 图 函数 ， 边 上 加 标记 ， 3.3.3 市 


bartlett .test 一 Bartlett 检验 函数 ， 7.1.5 节 

binom.test 一 二 项 总 体 分 布 的 检验 函数 ， 5.2.3 节 ， 5.3.4 节 ，5.3.7 节 
biplot 一 按 主 成 分 画 数据 散 点 图 ， 9.1.3 节 

break 一 中 止 语 句 ， 2.8.2 节 

boxplot 一 作 箱 线 图 ， 3.2.3 布 


c 一 向 量 建立 函数 ， 2.2.1 市 

cancor 一 典型 相关 分 析 计 算 函 数 ， 9.3.3 节 

cbind 一 矩阵 按 列 合并 ， 2.5.5 节 

chisq.test 一 x? 检验 函数 ，5.3.1 节 ， 5.3.2 节 ， 5.3.3 节 
coef 一 提取 回归 系数 ， 6.2.2 节 


附录 2_R 软件 中 的 函数 (程序 ) 


coefficients 一 提取 回归 系数 ， 6.2.2 节 
complex 一 生产 复数 ， 2.2.6 市 

contour 一 绘 三 维 图 形 的 等 值 线 ， 3.3.1 节 
cooks .distance 一 计算 Cook 距离 ， 6.5.4 节 
coplot 一 绘 样本 的 散 点 图 (不 同 水 平 ), 3.3.1 节 
cor 一 计算 相关 和 矩阵， 3.4.1 节 ， 3.4.3 节 ， 5.3.6 节 
cor.test 一 相关 性 检验 ， 3.4.2 节 ， 3.4.3 节 
cov 一 计算 协 方差 阵 ， 3.4.1 节 ， 3.4.3 节 
covratio 一 计算 COVRATIO 值 ，6.5.4 节 
crossprod 一 交叉 乘积 运算 (zy), 2.5.4 节 

cut 一 将 变量 分 成 若干 个 区 间 ， 5.3.1 节 








data 一 调用 R 中 的 数据 库 ， 2.7.3 节 
data.frame 一 生成 数据 框 ， 2.6.2 节 

density 一 核 密度 估计 函数 ， 3.2.2 市 

det 一 计算 矩阵 的 行列 式 ， 2.5.4 节 

deviance 一 提取 残 差 平方 和 ， 6.2.2 节 
dffits 一 计算 DFFITS 距离 ， 6.5.4 节 

dim 一 定义 数组 维 数 ， 2.5.1 节 . 取 和 矩阵 的 维 数 ， 2.5.5 节 
dimnames 一 数组 命名 ， 2.5.5 节 

dist 一 生成 聚 类 分 析 中 的 距离 结构 ， 8.2.1 节 
qdnorm 一 概率 密度 函数 ( 正 态 分 布 ), 3.2.1 厄 
dotchart 一 绘 数据 的 点 图 ， 3.3.1 市 

dpois 一 概率 密度 函数 (Poisson 分 布 ), 3.2.1 节 
dropl 一 逐步 回归 ， 减少 一 个 变量 ， 6.4.2 市 


ecdf 一 经 验 分 布 ，3.2.2 节 

edit 一 编辑 函数 ， 2.6.3 节 

eigen 一 求 矩 阵 的 特征 值 与 特征 向 量 ， 2.5.4 节 ， 6.5.5 节 
exp 一 指数 函数 ， 2.2.1 市 


612 附录 索引 


factanal 一 因子 分 析 计 算 函 数 ， 9.3.5 节 
factor 一 生成 因子 ， 2.4.1 节 

fisher .test 一 Fisher 检验 函数 ， 5.3.3 节 
fix 一 数据 编辑 ， 2.1.3 节 

friedman.test 一 Friedman 检验 ， 7.1.7 节 
fivenum 一 五 数 总 括 ， 3.2.3 市 

for 一 循环 语句 ， 2.8.3 节 

formula 一 提取 模型 公式 ， 6.2.2 节 


glm 一 计算 广义 线性 模型 的 函数 ， 6.6.1 节 ， 6.6.2 贡 


hat 一 计算 帽子 矩阵 ， 6.5.4 节 

hatvalues 一 计算 帽子 矩阵 ， 6.5.4 节 

hclust 一 计算 系统 聚 类 ， 8.2.2 节 

hist 一 绘 样本 直方 图 ， 2.1.2 节 ， 3.2.2 节 ， 3.3.1 节 


I(X~2) 一 X2 6.3.6 节 

if / else 一 分 支 语 句 ， 2.8.1 节 

image 一 绘 三 维 图 形 ， 3.3.1 市 

Inf 一 无 限 数据 ， 2.2.4 节 

influence.measures 一 回归 诊断 总 括 函 数 ， 6.5.4 节 
is.character 一 判断 是 否 为 字符 型 变量 ， 2.3.1 节 
is.data.frame 一 判断 是 否 为 数据 框 ， 2.7.1 节 
is.finite 一 判断 是 否 为 有 限 数据 ， 2.2.4 节 
is.infinite 一 判 汤 是 否 为 无 限 数 据 ，2.2.4 节 
is.list 一 判断 是 否 为 列表 ， 2.7.1 节 

is.na 一 判断 是 否 为 删 失 数据 ， 2.2.4 节 
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is.nan 一 判断 是 否 为 不 确定 数据 ， 2.2.4 节 
is.numeric 一 判断 是 否 为 数值 型 变量 ， 2.3.1 节 


kappa 一 计算 矩阵 条 件数 ， 6.5.5 市 

kmeans 一 KK 一 均值 取 类 隐 数 ， 8.2.3 节 

ks.test 一 Kolmogorov-Smirnov 检验 ， 3.2.4 节 ，5.3.2 节 
kruskal .test 一 Kruskal-Wallis 检验 ， 7.1.6 节 


length 一 计算 向 量 和 维 数 ， 2.2.1 节 ， 2.3.1 节 ， 4.1.1 节 
library 一 将 数据 库 调 入 内 存 ， 2.7.2 节 ， 2.7.3 市 
lines 一 画 直 线 ， 2.2.6 节 ， 3.2.2 节 
一 低 水 平 作 图 函数 ， 加 线 ， 3.3.3 市 
list 一 生成 列表 ， 2.6.1 节 
lm 一 作 线性 回归 ， 6.1.3 节 ， 6.2.1 节 ， 6.3.3 节 ， 6.3.7 节 ， 6.4.2 节 
1oad 一 载 入 工作 空间 ， 2.1.3 节 
loadings 一 提取 载荷 因子 函数 ， 9.1.3 节 
1og 一 对 数 函 数 ， 2.8.1 节 
lsfit 一 最 小 二 乘 拟 合 ， 2.5.4 节 


mahalanobis 一 计算 Mahalanobis 距离 ， 8.1.1 节 
matrix 一 构造 矩阵 ， 2.5.1 节 

max 一 计算 样本 的 最 大 值 ， 2.2.1 市 

mcnemar .test 一 McNemar 检验 函数 ， 5.3.3 节 

mean 一 计算 样本 均值 ， 2.1.2 节 ， 3.1.1 节 ， 4.1.1 节 
median 一 计算 样本 中 位 数 ， 2.2.1 节 ， 3.1.1 节 

min 一 计算 样本 的 最 小 值 ， 2.2.1 市 

mode 一 属性 函数 ， 2.3.1 节 
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NA 一 删 失 数据 ， 2.2.4 节 

NAN 一 不 确定 数据 ， 2.2.4 节 

ncol 一 取 和 矩阵 的 列 数 ， 2.5.5 节 

next 一 空 语句 ， 2.8.2 节 

nlm 一 求 多 元 函数 极 小 点 ， 4.1.2 节 ， 6.7.2 节 
nls 一 计算 非 线 性 拟 合 函数 ， 6.7.2 节 
numeric 一 产生 数值 型 变量 ， 2.2.7 节 

nrow 一 取 和 矩阵 的 行 数 ， 2.5.5 节 


optimise 一 求 一 元 函数 极 小 点 ， 4.1.2 节 

optimize 一 求 一 元 函数 极 小 点 ， 4.1.2 节 

order 一 计算 顺序 统计 量 的 下 标 ， 2.2.1 节 ， 3.1.1 节 
outer 一 又 积 运算 ， 2.5.4 节 


p.adjust 一 p- 值 调整 函数 ，7.1.4 节 

pairs 一 绘 样本 散布 图 ， 3.3.1 市 

pairwise.t.test 一 均值 的 多 重 比 较 ， 7.1.4 市 

par 一 图 形 参 数 设置 函数 ， 6.5.4 节 

paste 一 连接 字符 串 ， 2.2.5 市 

persp 一 绘 三 维 图 形 的 表面 曲线 ， 3.3.1 节 

plclust 一 绘 出 谱系 图 ， 8.2.2 节 

plot 一 绘 样本 的 散 点 图 ， 2.1.2 节 ， 3.3.1 市 
一 绘 出 经 验 分 布 图 ， 3.2.2 节 ， 6.3.7 节 
一 绘 曲线 、 样 本 直方 图 、 箱 线 图 、 散 布 图 等 ， 3.3.1 节 ， 7.1.3 节 
一 绘 回归 诊断 图 ， 6.2.2 节 ， 6.5.3 节 
一 绘 出 谱系 图 ， 8.2.2 节 

pnorm 一 分 布 函数 ( 正 态 分 布 ), 3.2.1 节 

points 一 低 水 平 作 图 函数 ， 加 点 ， 3.3.3 节 

poly 一 计算 正 交 多 项 式 ， 6.7.1 节 


附录 2_R 软件 中 的 函数 (程序 ) 


ppois 一 分 布 函 数 (Poisson 分 布 ), 3.2.1 节 
prcomp 一 计算 主 成 分 分 析 ， 9.2.3 市 
princomp 一 计算 主 成 分 分 析 ， 9.2.3 节 
prod 一 连 乘积 函数 ， 2.2.1 节 


predict 一 模型 预测 及 区 间 估 计 ， 6.1.5 节 ， 6.2.2 节 ， 


一 预测 主 成 分 值 ， 9.1.3 市 
print 一 显示 结果 ， 6.2.2 市 


q(0) 一 退出 R 系统 ，2.1.3 市 

qnorm 一 计算 下 分 位 点 ( 正 态 分 布 ), 3.2.1 节 
qpois 一 计算 下 分 位 点 (Poisson 分 布 ), 3.2.1 节 
qqline 一 绘 样 QQ 散 点 图 对 应 的 直线 ， 3.2.2 节 ， 
qqnorm 一 绘 样 QQ 散 点 图 ， 3.2.2 节 ， 3.3.1 节 
qqplot 一 绘 样 QQ 散 点 图 ， 3.2.2 节 ， 3.3.1 节 
gr 一 QR 分 解 ， 2.5.4 节 

qr.coef 一 计算 最 小 二 乘 的 系数 ， 2.5.4 市 
qr.fitted 一 最 小 二 乘 的 拟 合 值 ， 2.5.4 布 
qr.resid 一 最 小 二 乘 的 拟 合 残 差 值 ， 2.5.4 市 
quantile 一 计算 样本 百 分 位 数 ， 3.1.1 节 


range 一 计算 样本 的 区 间 ， 2.2.1 市 

rank 一 计算 秩 统 计量 ， 5.3.5 节 

rcauchy 一 产生 Cauchy 分 布 的 随机 数 ， 4.1.2 节 
rbind 一 矩阵 按 行 合 并 ， 2.5.5 节 

rbinom 一 产生 二 项 分 布 的 随机 数 ， 4.1.1 节 
read.csv 一 读 Excel 表 的 CSV 文件 ，2.7.2 节 
read.delim 一 读 Excel 表 的 纯 文 本 文件 ， 2.7.2 节 
read.dta 一 读 Stata 文件 ， 2.7.2 节 

read.S 一 读 S-PLUS 文件 ， 2.7.2 节 

read.spss 一 读 SPSS 文件 ， 2.7.2 市 


3.3.1 节 


6.3.5 节 
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read.table 一 读数 据 文件 ， 2.1.2 节 ，2.7.1 节 
read.xport 一 读 SAS 文件 ， 2.7.2 节 
rect.hclust 一 确定 聚 类 水 数 ， 8.2.2 节 

resid 一 计算 回归 残 差 ， 6.5.2 节 

residuals 一 计算 回归 残 差 ， 6.1.7 节 ， 6.2.2 节 ， 
rep 一 产生 重复 的 数列 ， 2.2.2 市 

repeat 一 循环 语句 ， 2.8.3 节 

rnorm 一 生成 随机 数 ( 正 态 分 布 ), 3.2.1 节 

rpois 一 生成 随机 数 (Poisson 分 布 ), 3.2.1 节 
rstandard 标准 化 (内 学 生化 ) 残 差 ， 6.5.2 节 
rstudent 一 (外 ) 学 生化 残 差 ， 6.5.2 节 








save.image 一 保存 工作 空间 ， 2.1.3 节 


6.5.2 节 


scale 一 作 数 据 中 心 化 或 标准 化 的 函数 ， 8.2.1 市 


scan 一 读 纯 文本 文件 ， 2.7.1 市 


screeplot 一 画 出 主 成 分 的 碎 石 图 函数 ， 9.1.3 市 


sd 一 计算 样本 标准 差 。， 2.1.2 节 ， 3.1.2 节 

seq 一 产生 等 间隔 数列 ， 2.2.2 市 

shapiro.test 一 正 态 性 W 检验 ， 3.2.4 节 ， 6.5. 

solve 一 解 方程 组 、 冠 阵 求 逆 ， 2.5.4 节 

source _ 执行 自 编 的 函数 (程序 ), 2.1.3 节 

sort 一 计算 顺序 统计 量 ， 2.2.1 节 ， 3.1.1 节 

sort .1ist 一 计算 顺序 统计 量 的 下 标 ， 2.2.1 市 

stars 一 星 图 ， 3.5.2 节 

stem 一 作 葵 叶 图 ， 3.2.3 节 

step 一 作 逐 步 回 归 ， 6.2.2 节 ， 6.4.2 节 

sqrt 一 开 方 函数 ， 2.2.1 市 

sum 一 求 和 郴 数 ， 2.2.1 节 ， 3.1.1 节 

summary 一 提取 模型 信息 ， 6.1.3 节 ， 6.2.2 节 ， 
一 提取 主 成 分 信息 ， 9.2.3 市 

svd 一 矩阵 的 奇异 值 分 解 ， 2.5.4 节 


2 节 ，7.1 


6.3.3 节 ， 


.5 节 


6.4.2 节 
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sweep 一 对 数组 或 矩阵 进行 某 种 运算 ， 8.2.1 节 
switch 一 多 分 支 语句 ， 2.8.1 节 


t 一 矩阵 的 转 置 ， 2.5.4 节 

tcrossprod 一 交叉 乘积 运算 (zy ), 2.5.4 市 

ttest tt 检验 函数 ，4.3.1 节 ，43.2 节 ，43.4 节 ，5.2.1 节 
table 一 因子 合并 函数 ， 5.3.1 节 

tapply 一 应 用 函数 ， 在 因子 计算 其 他 值 ， 2.4.2 节 

text 一 低 水 平 作 图 函数 ， 加 文字 ， 3.3.3 节 

title 一 低 水 平 作 图 函数 ， 加 标记 ， 3.3.3 节 

type 一 图 中 的 显示 命令 ， 表 示 绘 出 各 种 形式 的 图 形 ， 3.3.2 节 


uniroot 一 求 非 线性 方程 的 根 ， 2.9.1 节 ， 4.1.2 节 
updata 一 模型 修正 ， 6.3.6 节 ， 6.3.7 市 


var 一 计算 样本 方差 ， 2.2.1 节 ，3.1.2 节 ，4.1.1 节 
var.test 一 方差 比 检验 函数 ， 4.3.2 节 ， 5.2.2 节 
varimax 一 计算 最 大 方差 因子 载荷 ， 9.2.4 节 


weighted.mean 一 计算 加 权 样 本 均值 ， 3.1.1 节 

which.max 一 给 出 最 大 值 的 下 标 ， 2.2.1 节 

which.min 一 给 出 最 小 值 的 下 标 ， 2.2.1 节 

whicoxon 一 Wilcoxon 秩 检 验 函 数 ， 5.3.7 节 

while 一 循环 语句 ， 2.8.3 节 

write 一 写 纯 文本 文件 ， 2.7.4 节 

write.table 一 将 数据 框 或 列表 写成 纯 文本 文件 ， 2.7.4 节 
write.csv 一 将 数据 框 或 列表 写成 Excel 的 CSV 文件 ， 2.7.4 节 
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% 一 除法 求 余数 ，2.2.1 节 
%*% 一 点 积 运算 , 2.5.4 节 

%/% 一 整除 运算 ，2.2.1 闻 

%o% 一 又 积 运算 , 2.5.4 节 

: 一 产生 等 差 数列 ， 2.2.2 节 
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